Tags: ai 機械学習, ウェブ会議, オンライン会議, クラウド コミュニケーション, コミュニケーション プラットフォーム, スマート, ディープ ラーニング, デジタル トランスフォーメーション, ハイブリッド ミーティング, ビデオ会議, リモート ワーク, リモート勤務なら、, 人工知能, 医療, 無料のオンライン ビデオ会議, 無料のビデオ会議, 画面共有, 自動化, 自動化テクノロジー
2020 年に Webex Assistant をリリースしてからというもの、お客様からよくいただくようになったのが「精度は良いのか?」という質問です。これはもっともな疑問です。お客様としては、Webex AI (人工知能) の自動音声テキスト変換エンジンを導入すればミーティングの内容が正確にレコーディングされ、出席者がメモをとることに気を取られずにミーティングに集中できるようになり、さらにアクセシビリティの機能を利用して多様な人がミーティングに参加できるようになるという保証を得たいのです。人工知能がもたらす効果を過剰に謳った例や期待外れだったという例は枚挙にいとまがありませんが、Webex ではビジネスクリティカルなタスクにおける精度を確保することに妥協なく取り組んできた結果、著しい進歩を遂げています。
ハイブリッド ワーク モデルへと向かう世界的な潮流の中、字幕作成や音声テキスト変換、アクション事項のキャプチャーなどの機能の重要性が今まで以上に高まっています。そうした機能があれば、ユーザーの話す言語が違うとしても、アクセシビリティに対するニーズが異なるとしても、あるいは多忙を理由にミーティングに参加せず、要点の確認は Webex Assistant の機能に任せるという選択をする人がいたとしても、多様な人が公平にミーティングの場を体験できるようになるからです。シスコの目標は、AI や機械学習を活用してあらゆるミーティング体験をすべての人により適したものにすることです。
その目標を達成する方法の 1 つは、AI を駆使した最新の音声テキスト変換エンジンを開発することです。
信頼できるエンドツーエンドでのラベル付け機能やトレーニング、機械学習パイプラインを開発するために Webex で行ってきた投資を考えると、その経験を基盤に英語の音声テキスト変換エンジンをリリースし、市場に出回っている他社製の同等の音声テキスト変換エンジンと比べても業界随一と言える精度を Webex ミーティングに提供できるのは喜ばしい限りです。シスコでは、世界中で Webex を利用しているお客様の 98% 以上をカバーできるように、この技術の対応範囲を広げるべく取り組んでいます。今年はスペイン語、フランス語、ドイツ語に対応した自社開発の ASR (自動音声認識エンジン) のリリースを控えており、上半期に全 Webex Assistant ユーザーを対象に無償で提供予定です。
会話内容を正確にテキストに変換することを考えた場合、私たちはもし音声ファイルを聞き取って記録する議事録係がいたなら、話された内容がそっくりそのまま反映された記録ができるだろうと考えがちです。ですが物事を正しく判断するために「CallHome」のような一般的なデータセットから人為的なミスの発生率を計算してみると、最も良い数値で 6.8% という結果になります。人の手で議事録を作成した場合、100 文字中のおよそ 7 文字は不正確に記録されてしまうということです。ここで、「CallHome」というデータセットが、英語を母国語とする話者同士による台本のない 30 分間の通話記録であることに触れておいても損はないでしょう。[1] 同じ英語でも訛りが異なる話者同士の会話が記録されたデータセットでは、ミスの発生率が増加することが予想されます。
さらに興味深いのは、Linguistics Data Consortium (LDC) が測定したデータによると、議事録係の間のテキスト一致率には 4.1% から 9.6% の開きがあったということです。数値に幅があるのは、注意しながら複数の書き取りを行っていたか速さ重視で書き取りを行っていたかによって違いが出るためです。[2]これはつまり、申し分のない環境条件を整えた上で 2 人の人間にまったく同じ内容の音声を聞いてもらったとしても、それぞれが書き起こした記録には差異が生じるということです。
Webex の音声テキスト変換の改善を続け、その機能を人間による音声の書き起こしと遜色のないレベルに引き上げるにとどまらず、さらにその上を行き、あらゆる対応言語で発音や性別、音響環境に違いがあってもクラス最高の精度を実現することがシスコの目標です。
そこで、「精度は良いのか?」という質問に答えるには、自動音声認識の精度にはさまざまな側面があるという事情を説明することが重要になります。
次の例をご覧ください
今の段階では、まだ完成した技術とは言えません。ですがこれは短距離走ではなく、マラソンなのだと考えてください。偏りを減らすように配慮することと、お客様のデータにおける個人情報保護と安全性の維持を両立させつつ地域特有のデータを使ってトレーニングを続けていけば、いずれは人間にも引けを取らない、あるいは人による誤り率を上回る精度の自社開発の AI 音声テキスト変換エンジンを Webex で提供できると考えています。
ご自身の目で確かめたいとお考えの方は、今すぐ無料のトライアルにお申し込みください。
Citations
1Training data is only collected under strict privacy and confidentiality terms for users who opt-in to share their data to help improve the quality of the product
[1] G. Saon, G. Kurata, T. Sercu, K. Audhkhasi, S. Thomas, D. Dim-
itriadis, X. Cui, B. Ramabhadran, M. Picheny, L.-L.Lim,
B.Roomi, and P. Hall, “English conversational telephone speech
recognition by humans and machines”, arXiv:1703.02136, Mar.
2017.
[2] M. L. Glenn, S. Strassel, H. Lee, K. Maeda, R. Zakhary, and X. Li,
“Transcription methods for consistency, volume and efficiency”,
in LREC, 2010
[3] What is WER?What Does Word Error Rate Mean? – Rev https://www.rev.com/blog/resources/what-is-wer-what-does-word-error-rate-mean.その他の記事
機械学習エンジニアとして Webex に入社した Ritvik Shrivastava のインタビュー