{"id":373864,"date":"2021-09-14T08:59:41","date_gmt":"2021-09-14T15:59:41","guid":{"rendered":"https:\/\/blog.webex.com\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/"},"modified":"2021-09-14T08:59:41","modified_gmt":"2021-09-14T15:59:41","slug":"nachbearbeitung-in-automatischen-spracherkennungssystemen","status":"publish","type":"post","link":"https:\/\/blog.webex.com\/de\/maschinenbau\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/","title":{"rendered":"Nachbearbeitung in automatischen Spracherkennungssystemen"},"content":{"rendered":"<h2>Einf\u00fchrung<\/h2>\n<p>Systeme f\u00fcr die automatische Spracherkennung (Automatic Speech Recognition, ASR) erstellen Abschriften von Texten. In der Regel sind das Abfolgen von W\u00f6rtern. Cisco setzt ASR-Systeme ein, um in Webex Meetings in Echtzeit Untertitel zu erstellen. Ein Problem besteht darin, dass es schwierig sein kann, Untertitel zu lesen, in denen weder Interpunktion noch Gro\u00df- und Kleinschreibung verwendet wird. Die Verst\u00e4ndlichkeit der Bedeutung eines Textes h\u00e4ngt von der Interpunktion ab. So gibt es bei der englischen Wortfolge:<\/p>\n<p>\u201ethank you your donation just helped someone get a job\u201c zwei unterschiedliche Interpunktionsm\u00f6glichkeiten.<\/p>\n<p>Option\u00a0A: \u201eThank you! Your donation just helped someone get a job.\u201c Das bedeutet auf Deutsch: \u201eVielen Dank! Mit Ihrer Spende haben Sie gerade jemandem geholfen, einen Job zu finden.\u201c<\/p>\n<p>Option\u00a0B: \u201eThank you! Your donation just helped someone. Get a job.\u201c Das hat auf Deutsch allerdings eine ganz andere Bedeutung, n\u00e4mlich: \u201eVielen Dank! Mit Ihrer Spende haben Sie gerade jemandem geholfen. Suchen Sie sich einen Job.\u201c<\/p>\n<p>Ein einziges Satzzeichen macht einen gewaltigen Unterschied.<\/p>\n<p>Wir stellen einige \u00dcberlegungen an, die bei der Entwicklung eines Systems f\u00fcr die Nachbearbeitung ber\u00fccksichtigt werden m\u00fcssen:<\/p>\n<ul>\n<li>Hochgradig pr\u00e4zise Modelle f\u00fcr die Wiederherstellung von Satzzeichen und Gro\u00df-\/Kleinschreibung aus Rohtexten.<br \/>\nSchnelle Schlussfolgerungen anhand von Zwischenergebnissen, um mit den Untertiteln in Echtzeit Schritt zu halten.<\/li>\n<li>Geringe Ressourcennutzung: Spracherkennung ben\u00f6tigt viel Rechenleistung. Deswegen d\u00fcrfen die Interpunktionsmodelle nicht auch noch rechenintensiv sein.<\/li>\n<li>F\u00e4higkeit, W\u00f6rter zu verarbeiten, die nicht im Vokabular enthalten sind: Manchmal muss die Gro\u00df- und Kleinschreibung oder Interpunktion f\u00fcr W\u00f6rter festgelegt werden, die das Modell noch nicht kennt.<\/li>\n<\/ul>\n<p>Einige klassische, auf N-Grammen basierende Ans\u00e4tze [1] weisen eine relativ gute Qualit\u00e4t auf. Sie haben allerdings auch Nachteile. Zwar erm\u00f6glichen N-Gramm-Modelle schnelle R\u00fcckschl\u00fcsse, aber selbst 3-Gramm-Modelle ben\u00f6tigen, je nach Vokabular der jeweiligen Sprache, mehrere Gigabyte Speicherplatz. Ein weiterer Nachteil ist der Umgang mit W\u00f6rtern, die nicht im Vokabular enthalten sind. Wenn ein Wort in den Training-Daten nicht enthalten war, kann es von dem Modell nicht in der gewohnten Weise verarbeitet werden und die Genauigkeit kann abnehmen.<\/p>\n<p>Moderne Ans\u00e4tze verwenden effektive Techniken wie etwa ein bidirektionales RNN [3], die jedoch viel Rechenleistung in Anspruch nehmen, oder Attention- und Transformer-basiserte neuronale Netzarchitekturen [2]. Diese Modelle sind sehr genau [2], aber m\u00f6glicherweise nicht gut f\u00fcr die Anwendung beim Live-Streaming geeignet, weil sie die vollst\u00e4ndige Eingabesequenz ben\u00f6tigen, um R\u00fcckschl\u00fcsse ziehen zu k\u00f6nnen. Wenn man beispielsweise nur einen Eingabetoken f\u00fcr ein bidirektionales RNN hat, m\u00fcssen die verborgenen Zust\u00e4nde (\u201eHidden States\u201c) aller Token aktualisiert werden, mit denen das Modell bereits konfrontiert war (Abbildung\u00a01).<\/p>\n<div id=\"attachment_373203\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-373203\" class=\"wp-image-373203 size-full\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Computations-on-the-backward-pass-of-a-bi-directional-RNN.png\" alt=\"Berechnungen zur R\u00fcckw\u00e4rtsberechnung eines bidirektionalen RNN\" width=\"904\" height=\"224\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Computations-on-the-backward-pass-of-a-bi-directional-RNN.png 904w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Computations-on-the-backward-pass-of-a-bi-directional-RNN-300x74.png 300w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Computations-on-the-backward-pass-of-a-bi-directional-RNN-768x190.png 768w\" sizes=\"auto, (max-width: 904px) 100vw, 904px\" \/><p id=\"caption-attachment-373203\" class=\"wp-caption-text\"><br \/>\n<\/a> Abbildung\u00a01. Berechnungen zur R\u00fcckw\u00e4rtsberechnung eines bidirektionalen RNN. Bei jeder neuen Eingabe m\u00fcssen alle vorherigen verborgenen Zust\u00e4nde der Reihe nach aktualisiert werden.<\/p><\/div>\n<p>\u00a0<\/p>\n<p>Einige Ans\u00e4tze versuchen, das Problem der Interpunktion und Gro\u00df- und Kleinschreibung zu l\u00f6sen, indem zwei verschiedene Modelle erstellt werden [3][6], andere kombinieren die beiden zu einem einzigen Modell, weil die Ausgaben stark miteinander korrelieren [4][2]. Die W\u00f6rter, die unmittelbar auf die Satzzeichen folgen, verdeutlichen diese Korrelation gut: In vielen Sprachen werden W\u00f6rter nach einem Punkt mit hoher Wahrscheinlichkeit gro\u00df geschrieben und W\u00f6rter nach einem Komma wahrscheinlich klein. Einige Ans\u00e4tze schlagen eine Architektur mit mehreren Ausgaben vor [4]: jeweils eine pro Aufgabe. Sie zeigen, dass diese Architektur besser funktioniert als Architekturen, bei denen Interpunktion und Gro\u00df- und Kleinschreibung getrennt sind.<\/p>\n<p>Auf der Grundlage dieser Erw\u00e4gungen haben wir beschlossen, ein einzelnes GRU-basiertes neuronales Netz mit zwei Ausgaben f\u00fcr Interpunktion sowie Gro\u00df- und Kleinschreibung zu verwenden.<\/p>\n<p>Im Umgang mit W\u00f6rtern, die nicht im Vokabular enthalten sind, verwenden wir eine Technik, die der SentencePiece-Technik [6] \u00e4hnelt und die unbekannte W\u00f6rter in kleinere Token oder im Extremfall in Zeichen unterteilt. Mit den Einzelheiten und \u00dcberlegungen dazu werden wir uns nun besch\u00e4ftigen.<\/p>\n<h2>TruncBiRNN<\/h2>\n<p>Intuition und Experimente zeigen, dass es unabdingbar ist, den zuk\u00fcnftigen Kontext zu kennen, wenn man ein Interpunktionsmodell entwickelt, weil es schwieriger ist, die Interpunktion an einer bestimmten Position zu bestimmen, wenn man die folgenden W\u00f6rter nicht kennt. Damit wir Informationen \u00fcber die n\u00e4chsten Token nutzen k\u00f6nnen und nicht alle verborgenen Zust\u00e4nde aller Token r\u00fcckw\u00e4rts aktualisieren m\u00fcssen, haben wir beschlossen, die Bearbeitung in R\u00fcckw\u00e4rtsrichtung zu beschr\u00e4nken und auf ein festes Fenster zu k\u00fcrzen. In Vorw\u00e4rtsrichtung handelt es sich lediglich um ein normales RNN. In R\u00fcckw\u00e4rtsrichtung ber\u00fccksichtigen wir bei jedem Token nur ein festes Fenster und wenden das RNN auf dieses Fenster an (Abbildung\u00a02). Mithilfe dieses Fensters k\u00f6nnen wir eine konstante Zeitinferenz f\u00fcr neue Eingabetoken erhalten (wir m\u00fcssen einen verborgenen Zustand in Vorw\u00e4rtsrichtung berechnen und n+1 in R\u00fcckw\u00e4rtsrichtung).<\/p>\n<div id=\"attachment_373213\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-373213\" class=\"size-full wp-image-373213\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/TruncBiRNN-example.png\" alt=\"TruncBiRNN-Beispiel\" width=\"904\" height=\"204\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/TruncBiRNN-example.png 904w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/TruncBiRNN-example-300x68.png 300w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/TruncBiRNN-example-768x173.png 768w\" sizes=\"auto, (max-width: 904px) 100vw, 904px\" \/><p id=\"caption-attachment-373213\" class=\"wp-caption-text\"><br \/>\n<\/a> Abbildung\u00a02. In diesem Beispiel werden bei der R\u00fcckw\u00e4rtsberechnung des verborgenen Zustands f\u00fcr jeden aktuellen Token jeweils nur die beiden folgenden ber\u00fccksichtigt.<\/p><\/div>\n<p>\u00a0<\/p>\n<p>Wir erhalten nun f\u00fcr jedes Token verborgene Zust\u00e4nde f\u00fcr die Vorw\u00e4rts- und R\u00fcckw\u00e4rtsrichtung. Nennen wir diese Ebene einmal TruncBiRNN oder TruncBiGRU (weil wir GRU verwenden). Diese verborgenen Zust\u00e4nde k\u00f6nnen innerhalb von konstanten Zeitr\u00e4umen berechnet werden, die nicht von der L\u00e4nge der Eingabe abh\u00e4ngen. Der Vorgang muss innerhalb einer konstanten Zeit ablaufen, damit er mit den Untertiteln in Echtzeit Schritt halten kann.<\/p>\n<h2>Architektur<\/h2>\n<p>Die Architektur besteht aus Einbettungsebene, TruncBiGRU- und unidirektionaler GRU-Ebene und vollst\u00e4ndig vernetzter Ebene. F\u00fcr die Ausgabe verwenden wir zwei Softmax-Ebenen, je eine f\u00fcr die Interpunktion und die Gro\u00df- und Kleinschreibung (Abbildung\u00a03).<\/p>\n<div id=\"attachment_373223\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-373223\" class=\"size-full wp-image-373223\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Model-architecture-with-window-size-equal-to-two-tokens-for-TruncBiGRU.png\" alt=\"Abbildung\u00a03. Modellarchitektur mit einer Fenstergr\u00f6\u00dfe von zwei Token f\u00fcr TruncBiGRU\" width=\"962\" height=\"828\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Model-architecture-with-window-size-equal-to-two-tokens-for-TruncBiGRU.png 604w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Model-architecture-with-window-size-equal-to-two-tokens-for-TruncBiGRU-300x258.png 300w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Model-architecture-with-window-size-equal-to-two-tokens-for-TruncBiGRU-768x661.png 768w\" sizes=\"auto, (max-width: 962px) 100vw, 962px\" \/><p id=\"caption-attachment-373223\" class=\"wp-caption-text\"><br \/>\n<\/a> Abbildung\u00a03. Modellarchitektur mit einer Fenstergr\u00f6\u00dfe von zwei Token f\u00fcr TruncBiGRU.<\/p><\/div>\n<p>\u00a0<\/p>\n<p>Das Modell sagt die Gro\u00df- und Kleinschreibung f\u00fcr jedes Wort sowie die darauf folgende Interpunktion vorher. Um die beiden Ausgaben besser synchronisieren und die Gro\u00df- und Kleinschreibung vorhersagen zu k\u00f6nnen, m\u00fcssen wir auch die Einbettung des vorherigen Token kennen (um das Satzzeichen aus dem vorherigen Schritt wiederherzustellen). Zusammen mit einer benutzerdefinierten Verlustfunktion (siehe n\u00e4chster Abschnitt) k\u00f6nnen wir so verhindern, dass S\u00e4tze mit klein geschriebenen W\u00f6rtern beginnen.<\/p>\n<p>F\u00fcr die Vorhersage der Interpunktion ist es auch hilfreich, die Vorhersage der Gro\u00df- und Kleinschreibung des n\u00e4chsten Wortes hinzuzuziehen. Deswegen verkn\u00fcpfen wir die aktuelle Einbettung mit der folgenden.<\/p>\n<p>Eine Ausgabeebene f\u00fcr die Interpunktion sagt die Verteilung \u00fcber alle Satzzeichen hinweg voraus. In unserem Modell ist es eine Folge:<\/p>\n<p><em>Punkt <\/em>\u2013 Punkt in der Mitte eines Satzes, der nicht zwangsl\u00e4ufig darauf hinweist, dass das n\u00e4chste Wort gro\u00df geschrieben werden sollte (\u201ez.\u00a0B., \u201ed.\u00a0h.\u201c usw.)<\/p>\n<p><em>Komma<\/em><\/p>\n<p><em>Fragezeichen<\/em><\/p>\n<p><em>Auslassungszeichen<\/em><\/p>\n<p><em>Doppelpunkt<\/em><\/p>\n<p><em>Bindestrich<\/em><\/p>\n<p><em>abschlie\u00dfender Punkt<\/em>\u00a0\u2013 Punkt am Satzende<\/p>\n<p>\u00a0<\/p>\n<p>F\u00fcr die Gro\u00df- und Kleinschreibung verwenden wir vier Klassen:<\/p>\n<p><em>Kleinbuchstaben<\/em><\/p>\n<p><em>Gro\u00dfbuchstaben<\/em>\u00a0\u2013 alle Buchstaben werden gro\u00df geschrieben (\u201eIEEE\u201c, \u201eNASA\u201c, usw.)<\/p>\n<p><em>Gro\u00dfbuchstabe am Wortanfang<\/em><\/p>\n<p><em>Mischform<\/em>\u00a0\u2013 W\u00f6rter wie \u201eiPhone\u201c<\/p>\n<p><em>Gro\u00dfbuchstabe am Satzanfang<\/em>\u00a0\u2013 W\u00f6rter, die einen Satz einleiten<\/p>\n<p>Die zus\u00e4tzlichen Klassen \u201e<em>Gro\u00dfbuchstabe am Satzanfang\u201c (leading capitalized) und <\/em>\u201e<em>abschlie\u00dfender Punkt<\/em>\u201c (terminal period) m\u00f6gen zun\u00e4chst \u00fcberfl\u00fcssig erscheinen, sie leisten jedoch einen Beitrag zu konsistenteren Antworten im Hinblick auf Gro\u00df- und Kleinschreibung sowie Interpunktion. Der \u201e<em>abschlie\u00dfende Punkt\u201c <\/em>deutet darauf hin, dass die Antwort bei der n\u00e4chsten Frage der Gro\u00df- und Kleinschreibung nicht \u201e<em>Kleinbuchstaben\u201c sein kann, <\/em> wohingegen \u201e<em>Gro\u00dfbuchstabe am Satzanfang\u201c <\/em>bedeutet, dass das vorhergehende Satzzeichen ein \u201e<em>abschlie\u00dfender Punkt<\/em>\u201c oder ein Fragezeichen sein muss. Diese Klassen spielen eine wichtige Rolle f\u00fcr die Verlustfunktion.<\/p>\n<p>Verlustfunktion:<br \/>\nWir m\u00fcssen die Gro\u00df- und Kleinschreibung und die Interpunktion optimieren. Dazu verwenden wir die Summe aus einer logarithmischen Verlustfunktion mit einem Koeffizienten:<\/p>\n<p><a href=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function.png\"><br \/>\n  <img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-373233\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function.png\" alt=\"Verlustfunktion\" width=\"668\" height=\"38\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function.png 668w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-300x17.png 300w\" sizes=\"auto, (max-width: 668px) 100vw, 668px\" \/><br \/>\n<\/a><\/p>\n<p>Wie jedoch bereits erw\u00e4hnt, korrelieren die Ausgaben neuronaler Netze nicht immer optimal miteinander. Ein Beispiel daf\u00fcr w\u00e4re, wenn die f\u00fcr das Setzen von Satzzeichen zust\u00e4ndige Funktion \u201e<em>abschlie\u00dfender Punkt\u201c <\/em>f\u00fcr das aktuelle Wort vorhersagt, die f\u00fcr die Gro\u00df- und Kleinschreibung zust\u00e4ndige Funktion jedoch nicht \u201e<em>Gro\u00dfbuchstabe am Satzanfang<\/em>\u201c f\u00fcr den folgenden Token. Diese Art von Fehler ist zwar selten, sie kann aber sehr auff\u00e4llig sein. Deswegen verwenden wir eine zus\u00e4tzliche Abzugsbedingung in der Verlustfunktion, die bei dieser Art von Fehler zu einem Abzug f\u00fchrt:<\/p>\n<p><a href=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty.png\"><br \/>\n  <img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-373243\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty.png\" alt=\"Abzug bei Abweichung\" width=\"904\" height=\"68\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty.png 904w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty-300x23.png 300w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty-768x58.png 768w\" sizes=\"auto, (max-width: 904px) 100vw, 904px\" \/><br \/>\n<\/a><\/p>\n<p>Die erste Bedingung entspricht der Wahrscheinlichkeit, dass ein \u201e<em>Gro\u00dfbuchstabe am Satzanfang<\/em>\u201c nach einem Token mit einem anderen Wert als \u201e<em>abschlie\u00dfender Punkt\u201c steht, <\/em>und die zweite f\u00fcr die Wahrscheinlichkeit, dass \u201e<em>Gro\u00dfbuchstabe am Satzanfang<\/em>\u201c nicht nach \u201e<em>abschlie\u00dfender Punkt\u201c steht.<\/em>\u00a0 Dieser Abzug summiert sich, wenn der Fehler bei mehreren Token auftritt.<\/p>\n<p>Au\u00dferdem \u00fcbertragen wir zwei aufeinanderfolgende Tensoren von der vorherigen Ebene auf die Softmax-Ebenen. So k\u00f6nnen wir Abzugsbedingungen effizient reduzieren.<\/p>\n<p>Und schlie\u00dflich ist da noch die Verlustfunktion:<\/p>\n<p><a href=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-1.png\"><br \/>\n  <img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-373253\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-1.png\" alt=\"Verlustfunktion\" width=\"652\" height=\"60\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-1.png 652w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-1-300x28.png 300w\" sizes=\"auto, (max-width: 652px) 100vw, 652px\" \/><br \/>\n<\/a><\/p>\n<h2>Training<\/h2>\n<p>F\u00fcr das Training verwenden wir Abschriften von Texten aus einigen internen Webex Meetings und Textdaten von Wikipedia.<\/p>\n<p>Zun\u00e4chst werden die Training-Daten bereinigt und in S\u00e4tze unterteilt. W\u00e4hrend des Trainings wird jedes Beispiel aus aufeinanderfolgenden S\u00e4tzen generiert und auf eine beliebige L\u00e4nge aus einer festen Verteilung gek\u00fcrzt. Auf diese Weise wird das Modell im Training mit abgeschnittenen Phrasen konfrontiert, die es dem Modell erm\u00f6glichen, beim Folgern mit Zwischenergebnissen zu arbeiten. Anschlie\u00dfend trainieren wir ein Modell mit etwa 300\u00a0Megabyte Text von Wikipedia und nehmen dann mithilfe der Abschriften von Webex Meetings Feinabstimmungen vor.<\/p>\n<p>Das Vorab-Training mit Wikipedia tr\u00e4gt zu Verbesserungen bei allen Interpunktionsklassen bei, es ist jedoch besonders hilfreich bei den Klassen f\u00fcr die Gro\u00df- und Kleinschreibung. Wir vermuten, das liegt daran, dass der Wikipedia-Korpus sehr viele Substantive enth\u00e4lt.<\/p>\n<p>Wir wenden dieselbe Datenvorbereitung auf unsere Bewertungss\u00e4tze an, indem wir S\u00e4tze k\u00fcrzen und sie bei einer beliebigen L\u00e4nge \u201eabschneiden\u201c. Auf diese Weise k\u00f6nnen wir die Genauigkeit der Ergebnisse erfassen, die wir bei den Zwischenstufen der Abschriften erwarten k\u00f6nnen.<\/p>\n<h2>Fazit<\/h2>\n<p>Wir haben relativ einfache Techniken mit einigen Anpassungen bei der Architektur, z.\u00a0B. gek\u00fcrzte GRU und zus\u00e4tzliche Abz\u00fcge in Verlustfunktionen, eingesetzt, um ein Modell zu entwickeln, das online ausgef\u00fchrt werden kann. Live-Untertitel sind deutlich leichter lesbar, wenn Interpunktion sowie Gro\u00df- und Kleinschreibung in Echtzeit hinzugef\u00fcgt werden.<\/p>\n<p><strong>Literatur<\/strong><\/p>\n<p>[1] A. Gravano, M. Jansche und M. Bacchiani: \u201eRestoring punctuation and capitalization in transcribed speech\u201c, in ICASSP 2009, 2009, S.\u00a04741\u20134744.<\/p>\n<p>[2] Monica Sunkara, Srikanth Ronanki, Kalpit Dixit, Sravan Bodapati, Katrin Kirchhoff: \u201eRobust Prediction of Punctuation and Truecasing for Medical ASR\u201c<\/p>\n<p>[3] Tilk, Ottokar und Alum\u00e4e, Tanel (2016): \u201eBidirectional Recurrent Neural Network with Attention Mechanism for Punctuation Restoration\u201c, 3047-3051. 10.21437\/Interspeech.2016-1517<\/p>\n<p>[4] Vardaan Pahuja, Anirban Laha, Shachar Mirkin, Vikas Raykar, Lili Kotlerman, Guy Lev: \u201eJoint Learning of Correlated Sequence Labelling Tasks Using Bidirectional Recurrent Neural Networks\u201c<\/p>\n<p>[5] Wang, Peilu und Qian, Yao und Soong, Frank und He, Lei und Zhao, Hai. (2015): \u201ePart-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network\u201c<\/p>\n<p>[6] Lita, Lucian und Ittycheriah, Abe und Roukos, Salim und Kambhatla, Nanda (2003): tRuEcasIng. 10.3115\/1075096.1075116.<\/p>\n<p>[7] https:\/\/github.com\/google\/sentencepiece<\/p>\n<p><a href=\"https:\/\/www.webex.com\/video-conferencing\">Bei Webex anmelden<\/a><\/p>\n<p>Besuchen Sie unsere <a href=\"https:\/\/www.webex.com\/\">Homepage<\/a> oder <a href=\"https:\/\/www.webex.com\/contact-sales.html\">kontaktieren Sie uns<\/a> direkt, wenn Sie Unterst\u00fctzung ben\u00f6tigen.<\/p>\n<p><span data-ccp-props=\"{&quot;201341983&quot;:0,&quot;335559739&quot;:160,&quot;335559740&quot;:259}\"><br \/>\n  <a href=\"https:\/\/www.webex.com\/?utm_source=Influence&#038;utm_medium=EarnedContent&#038;utm_campaign=FutureOfWork\">Klicken Sie hier<\/a>, um mehr \u00fcber die Angebote von Webex zu erfahren und sich f\u00fcr ein kostenloses Konto anzumelden.<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Einf\u00fchrung Systeme f\u00fcr die automatische Spracherkennung (Automatic Speech Recognition, ASR) erstellen Abschriften von Texten. In der Regel sind das Abfolgen [&hellip;]<\/p>\n","protected":false},"author":5546,"featured_media":373197,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"footnotes":""},"categories":[1529],"tags":[573,4643],"class_list":["post-373864","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-maschinenbau","tag-artificial-intelligence","tag-maschinelles-lernen"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.1.1 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Nachbearbeitung in automatischen Spracherkennungssystemen | Webex Blog<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Nachbearbeitung in automatischen Spracherkennungssystemen | Webex Blog\" \/>\n<meta property=\"og:description\" content=\"Einf\u00fchrung Systeme f\u00fcr die automatische Spracherkennung (Automatic Speech Recognition, ASR) erstellen Abschriften von Texten. In der Regel sind das Abfolgen [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/\" \/>\n<meta property=\"og:site_name\" content=\"Webex Blog\" \/>\n<meta property=\"article:published_time\" content=\"2021-09-14T15:59:41+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png\" \/>\n\t<meta property=\"og:image:width\" content=\"975\" \/>\n\t<meta property=\"og:image:height\" content=\"554\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"Pavel Pekichev\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Pavel Pekichev\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"9 Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/\"},\"author\":{\"name\":\"Pavel Pekichev\",\"@id\":\"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f\"},\"headline\":\"Nachbearbeitung in automatischen Spracherkennungssystemen\",\"datePublished\":\"2021-09-14T15:59:41+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/\"},\"wordCount\":1862,\"commentCount\":0,\"image\":{\"@id\":\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png\",\"keywords\":[\"Artificial Intelligence\",\"Maschinelles Lernen\"],\"articleSection\":[\"Maschinenbau\"],\"inLanguage\":\"de-DE\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/\",\"url\":\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/\",\"name\":\"Nachbearbeitung in automatischen Spracherkennungssystemen | Webex Blog\",\"isPartOf\":{\"@id\":\"https:\/\/blog.webex.com\/es\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png\",\"datePublished\":\"2021-09-14T15:59:41+00:00\",\"author\":{\"@id\":\"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f\"},\"breadcrumb\":{\"@id\":\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#breadcrumb\"},\"inLanguage\":\"de-DE\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"de-DE\",\"@id\":\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#primaryimage\",\"url\":\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png\",\"contentUrl\":\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png\",\"width\":975,\"height\":554,\"caption\":\"Post-processing in Automatic Speech Recognition systems\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/blog.webex.com\/de\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Nachbearbeitung in automatischen Spracherkennungssystemen\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/blog.webex.com\/es\/#website\",\"url\":\"https:\/\/blog.webex.com\/es\/\",\"name\":\"Webex Blog\",\"description\":\"Webex by Cisco powers collaboration through industry-leading video conferencing, cloud calling and contact center solutions\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/blog.webex.com\/es\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"de-DE\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f\",\"name\":\"Pavel Pekichev\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de-DE\",\"@id\":\"https:\/\/blog.webex.com\/es\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g\",\"caption\":\"Pavel Pekichev\"},\"description\":\"Pavel Pekichev is a Machine Learning Scientist at Cisco working on speech recognition systems. Currently, his main focus is on the post-processing of speech-to-text models. Pavel graduated from Moscow State University with a degree in mathematics and statistics. Prior to Cisco, Pavel worked on a real-time bidding platform and recommendation systems. He has given several talks at industry conferences.\",\"sameAs\":[\"https:\/\/ru.linkedin.com\/in\/pavel-pekichev-7a078973\"],\"url\":\"https:\/\/blog.webex.com\/de\/contributors\/pavelp\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Nachbearbeitung in automatischen Spracherkennungssystemen | Webex Blog","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/","og_locale":"de_DE","og_type":"article","og_title":"Nachbearbeitung in automatischen Spracherkennungssystemen | Webex Blog","og_description":"Einf\u00fchrung Systeme f\u00fcr die automatische Spracherkennung (Automatic Speech Recognition, ASR) erstellen Abschriften von Texten. In der Regel sind das Abfolgen [&hellip;]","og_url":"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/","og_site_name":"Webex Blog","article_published_time":"2021-09-14T15:59:41+00:00","og_image":[{"width":975,"height":554,"url":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","type":"image\/png"}],"author":"Pavel Pekichev","twitter_misc":{"Verfasst von":"Pavel Pekichev","Gesch\u00e4tzte Lesezeit":"9 Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#article","isPartOf":{"@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/"},"author":{"name":"Pavel Pekichev","@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f"},"headline":"Nachbearbeitung in automatischen Spracherkennungssystemen","datePublished":"2021-09-14T15:59:41+00:00","mainEntityOfPage":{"@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/"},"wordCount":1862,"commentCount":0,"image":{"@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#primaryimage"},"thumbnailUrl":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","keywords":["Artificial Intelligence","Maschinelles Lernen"],"articleSection":["Maschinenbau"],"inLanguage":"de-DE","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/","url":"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/","name":"Nachbearbeitung in automatischen Spracherkennungssystemen | Webex Blog","isPartOf":{"@id":"https:\/\/blog.webex.com\/es\/#website"},"primaryImageOfPage":{"@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#primaryimage"},"image":{"@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#primaryimage"},"thumbnailUrl":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","datePublished":"2021-09-14T15:59:41+00:00","author":{"@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f"},"breadcrumb":{"@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#breadcrumb"},"inLanguage":"de-DE","potentialAction":[{"@type":"ReadAction","target":["https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/"]}]},{"@type":"ImageObject","inLanguage":"de-DE","@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#primaryimage","url":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","contentUrl":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","width":975,"height":554,"caption":"Post-processing in Automatic Speech Recognition systems"},{"@type":"BreadcrumbList","@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/nachbearbeitung-in-automatischen-spracherkennungssystemen\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/blog.webex.com\/de\/"},{"@type":"ListItem","position":2,"name":"Nachbearbeitung in automatischen Spracherkennungssystemen"}]},{"@type":"WebSite","@id":"https:\/\/blog.webex.com\/es\/#website","url":"https:\/\/blog.webex.com\/es\/","name":"Webex Blog","description":"Webex by Cisco powers collaboration through industry-leading video conferencing, cloud calling and contact center solutions","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/blog.webex.com\/es\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"de-DE"},{"@type":"Person","@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f","name":"Pavel Pekichev","image":{"@type":"ImageObject","inLanguage":"de-DE","@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g","caption":"Pavel Pekichev"},"description":"Pavel Pekichev is a Machine Learning Scientist at Cisco working on speech recognition systems. Currently, his main focus is on the post-processing of speech-to-text models. Pavel graduated from Moscow State University with a degree in mathematics and statistics. Prior to Cisco, Pavel worked on a real-time bidding platform and recommendation systems. He has given several talks at industry conferences.","sameAs":["https:\/\/ru.linkedin.com\/in\/pavel-pekichev-7a078973"],"url":"https:\/\/blog.webex.com\/de\/contributors\/pavelp\/"}]}},"_links":{"self":[{"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/posts\/373864","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/users\/5546"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/comments?post=373864"}],"version-history":[{"count":0,"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/posts\/373864\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/media\/373197"}],"wp:attachment":[{"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/media?parent=373864"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/categories?post=373864"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/tags?post=373864"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}