BabbleLabs – Cisco Webex Meetings で採用している優れた AI 音声技術

最高のビデオ会議というと、多くの場合、人が感銘を受けるのは視覚的な部分です。この点に関しては、Cisco Webex Meetings は確実に業界をリードしています。ビューのカスタマイズ、ジェスチャー、リアクション、高度なビデオレイアウト、イマーシブシェア機能など、進歩的な機能を提供しています。私自身、楽しい背景が大好きですし、ミーティングの参加者から “いいね” の絵文字を送ってもらうのも嬉しいものです。ですが今回は、ノイズのないクリアなスピーチで、ビデオ会議の音声の向上を図ることの重要性についてお話したいと思います。 Gartner 社によれば、2024 年には対面で行われるミーティングはわずか 25% になるとのことです。ほとんどが会議ソリューションを使って行われるようになるため、話し声の聞き取りやすさは、それに越したことはないというものではなく、不可欠な要素です。組織がパフォーマンスを発揮し、各地に分散した多様な人材構成とすることができるかどうかは、人々の相互理解の度合いにかかっています。そして相手を理解するうえで重要なのが、話すことと聞くことです。

効果的なスピーチエンハンスメントテクノロジーの開発課題

ビデオ会議中に参加者のことを理解するのは、オフィスであっても難しいかもしれません。システムが複雑なグローバルネットワークを介して何百人もの同僚に音声ストリームを配信しようとしていて、自分は騒がしい自宅でネットワーク接続が不十分なラップトップを使って仕事をしているとなると、なおさら困難です。これまでのアルゴリズム開発の課題は、人にかかる認知的負荷と電子機器にかかる演算負荷を軽減してビデオ会議のクリアな音声を実現するために、スピーチからどうやって有用な情報を抽出すればよいかということでした。ノイズの量、残響の程度、話者の数、帯域幅やレイテンシの限界という難しい問題を克服する必要がありました。また、ユーザーのプライバシーやデータセキュリティに配慮しつつ、パケットロスや音声圧縮の影響にも対処しなければなりませんでした。スピーチにはさまざまなノイズが含まれているため、アルゴリズムの開発者は、どの音をスピーチから分離すべきかの把握 (スピーチの音とスピーチではない音の判別) にも苦心してきました。そこで重点的に取り組んだのが、ファンやモーターのように時間が経っても振幅や周波数が一定の定常ノイズを抑制することでした。もっとも、犬の鳴き声やクラクション、キーボードを叩く音、背景ノイズのざわめきなど、邪魔なノイズの大半は一時的なものです。さらに、自宅オフィスをはじめとする多くの環境は音響面を考慮した設計になっていないので、残響音、いわゆる “エコー” が大量に発生します。

Cisco Webex Meetings で理解を深める

現在では、ニューラルネットワークを活用したスピーチメソッドが、こうした問題をどれだけ効果的に解決できるかを大きく左右するようになってきています。私は、2020 年 10 月にシスコが買収した BabbleLabs 社の創業者であり、CEO を務めていました。私たち BabbleLabs チームは、業界最高水準のスピーチエンハンスメント機能の開発に取り組んできました。今は Webex Voice Technology チームの一員として、この優れた AI 音声技術の実装に取り組んでいます。その方法ですが、簡単に言えば、ニューラルネットワーク構造を利用して何十万時間ものスピーチとノイズ、何万時間もの室内の音響を収集し、精密に調整したモデルを作成してスピーチを変換しています。処理に伴うレイテンシはわずか 10 ミリ秒です。最近のビデオ会議では、スピーチエンハンスメントが主流となっています。どのビデオ会議ソリューションにも何らかのスピーチエンハンスメント機能が搭載されていますが、同じ効果が得られるわけではありません。系統的なテストを実施した結果、Cisco Webex Meetings のスピーチエンハンスメントのアルゴリズムは、広く商用利用できるものの中で最も効果が高いことが分かりました。同じ品質評価ツールを使用して、利用できるビデオ会議システムの大半を比較してみました。使用したのは、ITU 規格 P.862 の Perceptual Evaluation of Speech Quality (PESQ) と、典型的なノイズと残響ストリームを集めた 3 つの大規模なセット (1 つはシスコ、2 つは Microsoft 社が作成) です。 Webex はすべてのテストで、 Zoom (5.4.1) や Microsoft Teams (1.4.00.4167) の最新版よりも多くのノイズや残響を除去し、大幅に高いスコアを獲得しました。このスピーチエンハンスメントテクノロジーが一般公開されてから 2 年。シスコがリソース投入を加速したことで、スピーチ品質が 2 倍に向上するとともに演算能力の要件が下がり、400 倍の速度でモデルを実行できるようになりました。

Cisco Webex Meetings の音声テクノロジーの今後の展望

パフォーマンスをレベルアップし、演算負荷をさらに抑制することによって、あらゆる環境に簡単に導入できるよう、シスコは限界に挑み続けています。 Webex なら、誰がどこで話しているかを判別し、話し声を増幅しつつ邪魔になる周囲の背景ノイズを消去することができます。さらに AI によって強力なツールがいくつか実現し、より多くのインサイトを抽出して、多大な労力をかけることなくコミュニケーションを図れるようになっています。近日中に、理解の度合いで大きく差をつけるスマートな新機能がリリースされるのでご紹介します。

会議室内の話し手を判別できるスピーチエンハンスメント: マイクの近くにいる話し手とマイクから遠い話し手の声を正確に判別して抽出。必要に応じてスピーチを抑制、増幅
スマートデバイス向けの新しいスピーチエンハンスメント機能: 新しい実装と機能により、最先端のラップトップ、デバイス、電話を活用可能
独自のスピーチエンハンスメントアルゴリズムを使用したコマンド認識: 豊富なボキャブラリーを備えた Webex の音声アシスタントと文字起こし機能を補完。効率的なエッジ実行、高精度、簡単な設定のための新コマンド

世の中は騒がしいものですが、そのせいで生産性が落ちることはもうありません。スピーチエンハンスメント機能が Cisco Webex Meeting 製品に大規模導入されるようになってから 7 か月以上が経ちました。単にノイズを除去するだけではありません。スピーチエンハンスメントは、プライバシー、セキュリティ、公平性に対するシスコの主要な取り組みはそのままに、スピーチを改善して相互理解を深めます。シスコのスピーチエンハンスメントテクノロジーを実際に確かめて、Cisco Webex Meeting のスピーチエンハンスメントアルゴリズムについて詳しく知りたいですか?

Cisco Live のトークショー『BabbleLabs – AI Audio Wizardry』をご覧ください。現在 Cisco Live の All Access パスをお持ちの方のほか、昨年夏に Cisco Live アカウントを登録した一般の方にもご利用いただけます。

詳細情報 AI を活用したスピーチエンハンスメント機能と優れたチームコラボレーション機能が登場 MindMeld の対話型 AI Webex の新機能: 2021 年 5 月

About The Author

Webex Team

Webex is a leading provider of cloud-based collaboration solutions which includes video meetings, calling, messaging, events, customer experience solutions like contact center, and purpose-built collaboration devices..

Learn more