トレーニングには、社内の Webex 会議の文字起こしと Wikipedia のテキスト データを使用します。まず、トレーニング データをクリーンアップし、センテンスに分割します。トレーニング時には、連続するセンテンスから各サンプルを生成し、固定分布からランダムな長さに切断します。これにより、カットされたフレーズをトレーニング時に使用できるため、推論時にモデルで中間結果を処理できます。次に、約 300 メガバイト相当の Wikipedia テキストでトレーニングを行い、Webex 会議の文字起こしで微調整します。Wikipedia を使用して事前トレーニングを行うことは、すべての句読記号クラスの向上に役立ちますが、大文字化クラスには特に効果的です。これは Wikipedia コーパスに含まれる大量の固有名詞が役に立っているものと考えられます。同じデータ準備を評価セットにも適用し、センテンスの連結とランダムな長さへの切断を行います。これにより、中間状態の字幕の正確さを測定できます。
まとめ
GRU の切り捨てと損失関数へのペナルティの追加など、比較的簡単な方法を使用してアーキテクチャをカスタマイズすることにより、オンラインで実行できるモデルを構築しました。リアルタイムで句読記号の挿入と大文字化を提供することにより、ライブ字幕の読みやすさが格段に向上します。 参考文献 [1] A. Gravano, M. Jansche, and M. Bacchiani, “Restoring punctuation and capitalization in transcribed speech,” in ICASSP 2009, 2009, pp. 4741–4744. [2] Monica Sunkara, Srikanth Ronanki, Kalpit Dixit, Sravan Bodapati, Katrin Kirchhoff, “Robust Prediction of Punctuation and Truecasing for Medical ASR” [3] Tilk, Ottokar & Alumäe, Tanel. (2016). Bidirectional Recurrent Neural Network with Attention Mechanism for Punctuation Restoration. 3047-3051. 10.21437/Interspeech.2016-1517. [4] Vardaan Pahuja, Anirban Laha, Shachar Mirkin, Vikas Raykar, Lili Kotlerman, Guy Lev “Joint Learning of Correlated Sequence Labelling Tasks Using Bidirectional Recurrent Neural Networks” [5] Wang, Peilu & Qian, Yao & Soong, Frank & He, Lei & Zhao, Hai. (2015). Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network. [6] Lita, Lucian & Ittycheriah, Abe & Roukos, Salim & Kambhatla, Nanda. (2003). tRuEcasIng. 10.3115/1075096.1075116. [7] https://github.com/google/sentencepiece Webex にサインアップする 詳しくは、Webex のホームページをご覧いただくか、直接お問い合わせください。 Webex のサービスの詳細と無料アカウント登録については、こちらをクリックしてください。
About The Author
Pavel PekichevMachine Learning ScientistCisco
Pavel Pekichev is a Machine Learning Scientist at Cisco working on speech recognition systems.