カリフォルニア州アナハイムで開催された WebexOne 2023 では、背景雑音を除去して狭帯域オーディオを広帯域に変換する AI 搭載の技術、HD Voice が発表されました。 これにより公衆電話交換網(PSTN)で通話を受ける際の音声品質と音声明瞭度が向上します。 この記事では、HD Voice によって解決できる問題、HD Voice の機能、お客様のメリットについて詳しく説明します。
狭帯域オーディオの問題
スマートフォンを使用して近所のピザ屋や友人、家族に電話をかけるとき、おそらく PSTN を使って通話しているのではないでしょうか。 PSTN 通話は、主に狭帯域オーディオが基本となります。狭帯域オーディオとは、音声周波数スペクトルの低周波域(つまり、最大 4 kHz)のみを保持する信号処理になります。 特定の子音を区別するための手がかり(資料)が含まれる高周波域(すなわち 4 ~ 20 kHz)には対応していません。 その結果、狭帯域オーディオ(および背景雑音)では音素の混乱が発生し、音声明瞭度や音質が低下することになります。 それに対して広帯域オーディオでは、8kHz までの音声スペクトルを保持します。一般的に狭帯域オーディオと比較して、音声明瞭度(資料1、資料2)や、聴覚障害を抱える人へのアクセシビリティが向上するなどの利点があります。
この問題をさらに深く掘り下げてみましょう。音声が狭帯域および広帯域の通信システムを通過するときに何が起こるかに注目してみます。 分かりやすくするために、狭帯域オーディオと広帯域オーディオの両方にマイナスに働く背景雑音の影響についてはここでは考慮しません。
図 1 は、48 kHz でサンプリングされた未処理の音声スニペットのスペクトログラムです。 これが通信システムを通過する音声信号とします。 音声スニペットがスペクトル全体で周波数成分を示しているのに注目してください。
音声が狭帯域コーデック(たとえば G.711 コーデックに基づく PSTN 通話)を通過すると、その結果得られる信号では、元の周波数スペクトルのほとんどを失っています(図 2)。
それに対して図 1 の信号が広帯域システムで処理されると、図 3 のようなスペクトルになります。 広帯域信号のほうが、図 2 の狭帯域信号よりも図 1 のオリジナルに「どれほど似ているか」に注目してください。
3 つのクリップ(オリジナルと処理後のクリップ)を聞き比べてみると、広帯域クリップの音質は狭帯域クリップよりもはるかに優れているのがわかります。。
狭帯域オーディオと広帯域オーディオ:「視覚的な」例
狭帯域オーディオと広帯域オーディオの関係を理解するために「視覚的な」例で説明します。
ちょっと想像してみてください。今は 1958 年で、あなたはテレビを見ています。NBC のロバート・サーノフ社長がアイゼンハワー大統領を紹介しています。大統領は国民に対して演説を始める予定です。 テレビ番組は白黒(B&W)です。 サーノフがボタンを押すと、突然、画面がカラー映像に変わります。
白黒テレビからカラーテレビに切り替わるという、テレビ放送のもっとも決定的な瞬間です。 その後同様の出来事が世界中で起こりました。1975 年のオーストラリア(ビデオ)、1982 年のインド(ビデオ)、1972 年のノルウェー(ビデオ)などが挙げられます。
この切り替わりが与えた影響について考えてみましょう。
まず情報を伝えるという点で、白黒テレビ放送はその目的を果たしています。 たとえばプレゼンターとその周囲を見れば、場面を視覚的に把握できます。 ただし、プレゼンターのジャケットの色や背景の色はわかりません。 一方、カラー映像はよりリアルで親近感があります。
ここで質問です。カラーの映像を見た後で白黒の映像に戻りたいと思いますか。 おそらくそうは思わないでしょう。
確かに、白黒テレビにも独特の魅力があります。 しかしテレビの生中継となると、カラー映像のほうが優れています。 科学的な研究もこれを裏付けているようです。たとえばカラー映像は(白黒映像と比較して)記憶やブランドの連想にプラスの影響を与えることが明らかになっています(資料)。 今ではすべての放送局がカラー映像で番組を制作しています。
視覚的な例と同様に、狭帯域オーディオも(白黒テレビのように)情報を伝えるだけなら十分かもしれませんが、周波数スペクトルが「カット」されてしまうため、処理された音声の内容は理解しにくくなります。 一方、広帯域オーディオは(カラーテレビのように)スペクトルの大部分が保持されるため、聞こえてくる音声は私たちが実生活で経験するものに「より近く」なり、話されている内容を理解しやすくなります。
シスコの HD Voice:AI を活用して狭帯域通信に「カラー」をよみがえらせる
音声通信の場合、80 年代後半に国際電気通信連合によって G.722 ワイドバンドコーデックが標準化されたとき、狭帯域オーディオから広帯域オーディオに一気に切り替わることはありませんでした。 現在、PSTN 通話の大部分は狭帯域オーディオを使用しています。 音質が良くないとわかっていても、どうすることもできません。 しかし今後は違います。
狭帯域を使用した通話の品質向上のため、シスコは AI ベースの音声処理テクノロジーである HD Voice を開発しました。HD Voice では以下を同時に実現します。
- 背景ノイズの除去
- 狭帯域オーディオを広帯域オーディオに変換
これにより、PSTN 通話の受信時の音質と音声明瞭度が向上します。
いわば HD Voice は、NBC のロバート・サーノフ社長が白黒テレビからカラーテレビに切り替えるために使用したスイッチのような、狭帯域オーディオを広帯域オーディオに変換する「スイッチ」といえます。
HD Voice は狭帯域音声(G.711 など)を入力として受け取り、AI を使用して背景雑音を除去し、狭帯域処理の際に失われた音声スペクトルの高周波部分を再構築します(図 5 のスペクトログラム 1 を参照)。
図 5:HD Voice でクリアな広帯域オーディオに変換された狭帯域信号
こうして、HD Voice からの出力は、再構築されたスペクトルを含むノイズのない広帯域信号となります(図 5 のスペクトログラム 2 を参照)。 オリジナル(スペクトログラム 1)と比べて、HD Voice の音声(スペクトログラム 2)のほうがよりクリアに聞こえます。
HD Voice の目的は、音響心理学の原理と AI の力を活用し、オリジナルの狭帯域音声の高周波部分を副次的な情報なしで自動的に再構築することです。 HD Voice はユーザーのデバイス上でローカルに動作させたり、クラウド上で動作させたりできます。 HD Voice ニューラルネットワークのトレーニングに、ユーザーデータが使用されることはありません。 このため、HD Voice では特定人物の音声の高周波は再構築されません。 HD Voice は AI ベースのイノベーションとして、透明性、公平性、説明責任、プライバシー、セキュリティ、信頼性を含むシスコの責任ある AI の原則を常に遵守します。
Webex のお客様にとってのメリット
シスコは、Webex ユーザーに最高の音質とユーザー体験をお届けできるよう取り組んでいます。 HD Voice により、さまざまな Webex 製品およびエンドポイントにノイズ抑制機能が導入され、Webex のお客様の音声体験はさらに向上します。
シスコの HD Voice によって雑音を除去して狭帯域オーディオを広帯域オーディオに変換することで、業務で狭帯域通信(たとえば PSTN)を利用するユーザーの体験を飛躍的に向上させます。 HD Voice ユーザーは、よりクリアでノイズのない高品質な音声を聞けるようになり、会話に集中できます。
HD Voice は、Webex Suite を使用しているすべてのお客様にご利用いただけます。 Webex Calling を使用しているお客様は、2023 年 11 月から Webex App のベータ版で HD Voice をいち早く利用できます。 その他の Webex Suite のお客様には、HD Voice の提供について 2024 年に詳細を発表する予定です。
関連資料: