音の重要性: ビデオ会議に音声品質が与える影響

On By Reilly Nolan1 Min Read
Man with headset listening to audio with smartphone_ccexpress
デジタル ワークプレースが進化するに従って、ハイブリッド ワークの課題も変化していることがわかってきました。仕事中、絶え間なくビデオ会議に参加している人は、会議疲れがこれまでになく蓄積していることでしょう。 しかしその疲れは、カメラに映っていることだけが原因ではありません。氷山のたとえで言われるように、表面に見えているのはその下にある大きな問題のごく一部です。ビデオ会議疲れは、ハイブリッド ワーカーとリモート ワーカーが感じる疲れ全体の、ごく一部なのです。 では、この大きな不安の塊を構成しているのは何でしょうか。多くの人々にとって問題となっているのは、音なのです。

音質とは何か

音の魔力に、完全に魅入られたときのことを思い出してみてください。静かなハイウェイをロング ドライブしながらかける大音量のステレオ。凍てつく冬の海から押し寄せる波のとどろき。混み合ったバーでのライブ。限界を超えた音量でも誰も気にしません。オーケストラが鳴り響き、遠く銀河に向かってテキストが流れる、あの有名な映画シリーズの壮大な始まりの瞬間。 音の体験は主観的なもので、気持ちを落ち着かせることもあれば、気に障ることもあります。ある人にとっては気持ちのよい環境音楽も、別の人にとっては仕事中に聞きたくない音楽になることもあります。決まり切った仕事をするのにポッドキャストが欠かせないという人もいれば、集中力を要する仕事のときに音楽は邪魔だという人もいます。 しかしいずれの場合でも前提とされることが 1 つあります。非常にクリアでシームレスな音声です。このデジタル時代において音の圧縮やストリーミングの技術が驚異的に高まった結果、高品質な音環境は今やぜいたくではなく、音質に求められる基準値となりました。 では、私たちが (切望はしないまでも) 期待するぜいたくな音体験とはどういうものでしょうか。少し基本をおさらいしておきましょう。 音波 音は、さまざまな周波数の振動によって起きる波として伝わります。周波数は Hz (ヘルツ) で表され、私たちはそれをピッチ (音高) として認識します。人の会話は 80 Hz から 14 kHz (キロヘルツ) で行われています。私たちの耳で聞き取れるのは 20 Hz から 20 kHz の音です。周波数が低いと低いピッチの音となり、たとえば内燃機関の始動音、ファンク音楽のベースライン、バリトン歌手の声などがこれに当たります。周波数が高いと高いピッチの音として聞こえます。フォークの先でグラスを叩く音や口笛の音を思い出してみてください。 ところが、音を伝えるとなると、事情はもう少し複雑になります。音の伝送は無線送信機で音声情報を含む電気的信号を発生させることから始まります。信号はアンテナによって増幅され、電波によって無線受信機に運ばれます。受信機は情報を抽出して機器 (スピーカー、ディスプレイ スクリーンなど) に送信します。 20 世紀初頭、こうした部品はそれぞれが独立して非常に大きく、都市の高層ビルと離れた地域を結んでいました。多くの人に共有体験をもたらし、世界をひとつにした奇跡的な技術でした。 さて、話を一気に現代まで進めると、すべてのスマートフォンにはこの技術が入っています。音を分割し、デジタル化し、リアルタイムで伝送します。インターネットにつながったデバイスがあればどこからでも、地球全体に伝えることができます。 ビデオ会議に関して言えば、ほとんどの参加者の音声は現在、VoIP (Voice over Internet Protocol) によって伝送されています。つまり、私たちの音声はセルラー ネットワークではなくインターネットで送信されているということです。VoIP ビデオ会議の音声品質は、かつての電話の品質が携帯電話基地局との距離に左右されたのとは違い、個々人のインターネット速度に影響を受けます。 音質に影響を与える要素はいろいろありますが、以下の 4 つが特に重要です。
  1. サンプル レート。オリジナルのアナログ音声から測定 (サンプリング) する 1 秒あたりのデジタル サンプルの数です。通常、サンプル レートが高くなると音声品質も高くなり、単位は kHz で表します (標準的な電話では 8 kHz または 16 kHz、ストリーミング音声では 44.1 kHz です)。
  2. ビットレートデジタル音声ファイルに含まれるデータの量を示します。単位は kbps (キロビット毎秒) です。サンプル レートと同様、通常はビットレートが高い方が高音質となります。
  3. 音声コーデック。デジタル音声を圧縮および伸張するアルゴリズムです。何十年もの間、電話の音声は G.711 狭帯域コーデックが標準でした (C-3PO の声で読んでみてください)。しかし現在では G.722 など広帯域規格の HD コーデックにより、より高品質な音声を提供できる時代になりました。
  4. 帯域幅最終的に、私たちの VoIP 電話やビデオ会議の音声品質を決定づける最も重要な要素は帯域幅でしょう。ネットワークのアップロード スピードが遅い場合、おそらくほとんどのプラットフォームは狭帯域の音声コーデックがデフォルトになっているでしょう。インターネット速度が速くなると、HD 音声を提供する広帯域かつフルバンドのコーデックが利用できます。
こうしたさまざまな要素が、ビデオ会議の中でどれだけ複雑に絡み合うか考えてみてください。参加者がたとえ数人だとしても、自分のスマートフォンから携帯電話ネットワークを使って参加するメンバーもいれば、ノートパソコンやその他のデバイスを使ってインターネット経由で参加するメンバーもいて、プロバイダーも接続速度もさまざまです。こうしたことが音声の問題を複雑にします。

ビデオ会議の音質が重要な理由

コロナ禍によって、私たちの世界や仕事のパラダイムに突然の変化が訪れてからもうすぐ 2 年になります。これほど頻繁にビデオを介して相手と話し、共同作業している状況を考えると、ハイブリッド ワークやリモート ワークへの世界的な移行が私たちにどのような影響を与えているかに目を向けることが非常に重要となってきます。 さまざまな調査研究や分析が発表されるにつれ、ビデオ会議による疲労が増えていることがわかってきました。半数近くがリモート ワークのときに孤独を感じると訴え、61% がビデオ ミーティングによる疲れが増していると答えています。さらに懸念される結果もあります。調査への回答者の 90% が、自宅での勤務時にコラボレーションの問題を経験しているといいます。 しかし問題が音声のことであれば、原因を特定するのは容易です。
  • 帯域幅が限界に近づくと、音声品質は悪化します。同僚に「接続が悪いよ」と言われたときの不安な気持ちを思い出してください。
  • 残響音もミーティングの妨げとなり、音環境が全員にとって不快なものとなります。
  • クロストークは、発言に積極的でないメンバーの発言を困難にし、インクルーシブなミーティング環境を作ることに取り組む多くの企業にとって大きな課題となっています。
  • 放置されたまま続く背景ノイズは、発言者を遮ったり、聞き手の注意を散漫にしたりすることで、ミーティングそのものを台無しにします。
こうした問題は時間とともに膨れ上がり、オンライン コラボレーションに対する長期的な大きな不安をもたらします。音声パフォーマンスに問題のある状態が続けば、コラボレーションに対する意欲が失われます。 ここが重要であり、私たちがあまり意識していない点です。音は私たちの日々の生活環境における基本的、かつ重要な要素です。それはコラボレーションでも、単に環境として認識する場合でも同じです。調査によると、音は特定の場面ではすばらしいストレス解消の手段になります。一方、別の研究では、音によって不安神経症やうつ病すら引き起こされることがわかっています。 『The Design of Everyday Things (邦題: 誰のためのデザイン?)』で、著者の Don Norman 氏は製品デザインのコンテキストで、特にユーザーにとってシグニファイアとしての音には 2 面性があると述べています。
「音は厄介です。癒やしになる一方で、容易に人をいら立たせ、心をかき乱します。音の長所の 1 つに、注意を向けていなくても認知可能である点が挙げられますが、その長所は同時に、押し付けがましいという欠点にもなります」
では、音声への不安を克服するにはどうすればよいのでしょうか。また、ビデオ会議の音質を改善するには具体的に何が必要なのでしょうか。

ビデオ会議に最適な音質

この記事で述べたとおり、帯域幅、圧縮、コーデックは音声品質にとって非常に重要です。そこで、広帯域 (HD) と狭帯域の音声の違いについてもう少し詳しく見ていきましょう。 狭帯域音声は、Adaptive Multi-Rate (AMR) スピーチ コーデックを使用します。AMR コーデックは基本的に、ライブ配信で圧縮および送信するときに、音の限られた周波数範囲を利用します (200 Hz 〜 3.4 kHz)。また、AMR コーデックは帯域幅に基づいて変化する可変ビットレート方式も備えています (約 5 ~ 12 kbps)。音質が悪い場合、低帯域幅に起因する問題に対応するため、AMR コーデックがより低いビットレートに移行したことが原因である可能性があります。 高速インターネットの利用が広がるにつれ、より高品質な音声を利用することが当たり前となりました。広帯域音声は、特に VoIP 向けにデザインされた HD フォーマットです。 広帯域音声は、より広い周波数範囲 (50 Hz ~ 7 kHz) を提供する Adaptive Multi-Rate Wideband (AMR-WB) スピーチ コーデックを使用します。つまり、より高いピッチと低いピッチの音を拾って伝送するため、より深く豊かな品質の音を届けることができます。 先に触れたとおり、インターネット速度が低いと、ビデオ会議ソリューションがデフォルトの狭帯域音声コーデックに移行します。広帯域 (HD) コーデックを使用するには、高速回線が必要ということになります。しかし、これはやや非民主的に聞こえます。インクルージョンが、インターネット速度にそこまで支配されてよいものでしょうか。 これこそ、Webex が Opus (より柔軟で拡張性に富んだ音声コーデック) を利用する理由です。すべての参加者に対して、インクルーシブな音環境を維持します。 Opus なら、ビットレートが低くても優れた音声品質を提供できます。しかも、広帯域やフルバンドの音声にも強く、カバー範囲は人間の耳で認知できる音声スペクトル (20 Hz ~ 20 kHz) を超えます。 Opus は優れた音声品質を提供可能 ここで少し立ち止まって、Opus の柔軟性が、人中心のコラボレーションにおける課題を解決するのにどのように役立ったかについて、最近の事例をご紹介したいと思います。 Opus は音の周波数スペクトル全体でクリアな音声を提供できますが、その機能によって実現したのが Webex ミュージック モードです。この音声モードでは、音声が人間の話し声ではなく音楽に最適化され、元の音をより明瞭に保持します。 インディアナポリス児童合唱団 (ICC) は、コロナ禍のため数か月にわたり 1 か所に集まっての練習ができませんでした。そこでこのミュージック モードを使って合唱の練習をすることにしました。しかも、Webex にフィードバックを提供することで、この機能をさらに強化するよう協力してくれたのです。

こちらのビデオで、ICC がこれまでにない壁を乗り越え、ミュージック モードによってどのように音楽への情熱を追求し続けたかをご覧ください。

ビデオ会議の音声に影響を及ぼす要素は非常に多く、重なり合ってもいるため、その他の課題の可能性についても検討することが重要です。

次に、ハードウェアによって、ビデオ会議中のお互いの声をどのように聞き取りやすくできるかを探っていきましょう。

音質におけるハードウェアの役割

マイク アレイとケーブルの画像。

Cisco Microphone Array

基本的に、使用するマイクが拾う音声信号がすべてです。マイクは音声のデジタル化、圧縮、伸張に先立つ最初のタッチポイントです。シンプルなコンピューターのマイク、外部マイク、マイク アレイを備えたデバイスのどれを選ぶかが、反響や耳障りな音といった具体的な音声の問題に影響を与えます。 さまざまなタイプのデバイスから、自分のワークスタイルやワークスペースに応じたデバイスを選択するだけで、音環境を最適化し、自分が聞く音、相手に聞こえる音のいずれも大幅に改善できます。シスコの音声エンジニア、Patrick Achtelik に、Webex のハードウェアや高度な音声テクノロジーがどのように発言者の声を明瞭にし、同時に望ましくないノイズを低減するかについて話を聞きました。
ランズエンドから太平洋を見る Patrick の画像。

Patrick Achtelik

「ビームフォーミングとは、基本的に複数の全方向性マイクを使う技術です」と Patrick は説明します。「マイク自体は、全方向から均等に音を拾います」 しかし、多数の全方向性マイクを一緒に使用することで、指向性を持たせることができます。その結果、マイクが音の周波数をより効果的に拾えるようになります。Patrick は言います。 「より広い周波数範囲に対して指向性を持たせるには、より多くのマイクが必要です。たとえば Webex Desk Pro では、ベゼルの左側に異なる距離に向けて広がる 6 つのビームフォーミング マイクが間隔を変えて配置されています。こうすることで、マイクは異なる周波数と異なる周波数帯の音を拾うことができます」
家のワークスペースに置かれた Webex Desk Pro。

Webex Desk Pro

このように配置することで、マイクはデバイスの上下の音を拾わず、マイク アレイの正面の音、つまり話し手の声を集中的に集めるよう最適化されます。 しかし、これはまだ問題解決の一部に過ぎません。Patrick の説明によると、話し手と聞き手がエコーのような制御不能と思われる問題をどう避けるかという点に対してはソフトウェアとハードウェアの組み合わせが多大な影響を及ぼすため、その組み合わせが重要だということです。 「Webex の全二重通信が機能するためには、アコースティック エコー キャンセレーション (AEC) が完全に機能する必要があります。一方が話しているとき、マイクはスピーカーの音も拾うため、AEC がないと、エコー バックした話し手の声が本人にも聞こえてしまいます」 ビデオ会議には AEC の機能が重要な役割を果たします。全二重通信は複数の話者が同時に話すことを可能にするテクノロジーであり、Webex では常に機能しています。エコーや反響に対する機能のない多くのプラットフォームではここが問題となります。Patrick は距離の重要性を強調します。
「エコーはスピーカーの音の歪みから始まります。小さなノートパソコンのスピーカーの音量を上げると、すぐに歪みが生じます。物理的に距離を置くことで、スピーカーからマイクに伝わる音の量を減らすことができます。結果的にマイクをユーザーの近くに置くことになり、声を明瞭にすることにつながります」
Patrick の「サウンド フォーカス」ビデオブログで、マイクとスピーカーの位置関係についてご覧ください。

音質とビデオ会議に最適なデバイス

ヘッドセットのアップグレードは、リモート ワーカーとハイブリッド ワーカーにとって、音声の向上への重要な第一歩になり得ます。その理由を、Patrick はこう説明します。

「ノートパソコンに組み込まれたマイクはどちらかと言えばユーザーから遠く、ノートパソコンのスピーカーに近い状態にあります。ほとんどの場合、ユーザーの声がマイクから遠く、AEC はスピーカーにより近いため、十分に機能を発揮できません。ヘッドセットを使うと、ヘッドフォンで聞こえる音はヘッドセットのマイクに届かないため、スピーカーとマイクの間の音響的なつながりを絶つことができます」
ヘッドセットのデザインのスケッチと写真。

Cisco Headset 730 のスケッチから最終製品までの変遷。

レッド ドット デザイン賞を受賞した Cisco Headset 730 は、ビデオ会議の音声を明瞭にします。ブームのないデザインで、より自然に話すことができます (口の前にマイクを配置するためのブームをなくしました)。ビームフォーミング テクノロジーを使い、ヘッドセットの中に 4 つのマイク アレイを配置することで、ユーザーの声に焦点を合わせた一種の音声バブルを形成します。このヘッドセットは、ノイズの多い環境に合わせて自動的に調節する適応型ノイズ キャンセレーションから、アンビエント モードに変更して、コラボレーションの雰囲気を感じながら仕事をしたいときに共有ワークスペースでの会話を聞こえるようにすることもできます。 最新の Cisco のヘッドセットは、業界のリーダーである Bang & Olufsen 社との提携から生まれたデザインで、さらに多くの機能を搭載しています。ジオメトリックなデザインの中に 6 つのマイクを効果的に配置し、ユーザーの声をより明確に分離します。さらに高度なアルゴリズムで背景ノイズを遮断します。
Bang & Olufsen ヘッドセット

Bang & Olufsen Cisco 980 ヘッドセット

ノートパソコンのマイクをヘッドセットに変えるだけの少しの変化でも、ミーティング体験は大きく変わります。しかし、ビデオ会議のエクスペリエンスを一から見直したいと思うなら、新しい Webex Desk Mini のようなコラボレーション デバイスが 1 つの答えでしょう。インテリジェントなマイク アレイ テクノロジー、先述した集中的な集音機能のほか、HD ビデオやリアルタイムの共同作業を可能にするデジタル ホワイトボードなどの機能を満載しています。
各色揃った Webex Desk Pro Mini

Webex Desk Mini

言ってみれば、ハードウェアは私たちの音環境を向上させるエンジンのようなものです。人の声や自分の声を聞こえやすくするためのモーターだと考えてください。一方で、ソフトウェアはそのエンジンに点火してパフォーマンスを引き出す燃料と言えるかもしれません。 

ビデオ電話の音声を改善するソフトウェア機能 

誰もが予想し、恐れていたのが、憂鬱な背景ノイズでした。世界がハイブリッド ワークに移行して以来、ノイズはリモート ワーカーが直面する最も厳しい課題の 1 つです。 背景ノイズがストレスを引き起こすのは何も驚くことではありません。ビデオ会議環境は世界中の悩みの縮図です。研究によると、一般的な騒音によるイライラは実際生じており、有害であることがわかっています。特に、望ましくない音によって不安な気持ちが引き起こされることを理解しておくことは重要です。荷物の配達人に吠える犬の声や、重要なプロジェクトの説明を聞いているときに遮る子供の声、話そうとした瞬間にスイッチが入るミキサーや掃除機の音などであってもです。 集中できるワーク エクスペリエンスを実現できる環境を望んでも、なかなか得られるものではありません。そのようなエクスペリエンスを実現するには、自分ではコントロールできない音声の課題に立ち向かうテクノロジーが必要です。そしてテクノロジーは課題によって発展するものです。 2020 年、シスコはノイズ除去ソフトウェアで業界をリードしていた BabbleLabs 社を買収しました。同社は AI や機械学習を使って Webex ツールのノイズ除去機能を強化し、まったく新しい、革新的なテクノロジーを打ち出しました。 機械学習は、細かく複雑な、多くのプロセスをカプセル化します。膨大な時間をかけたトレーニング データを使って、人間の話し声とその他の音を区別するアルゴリズムを機械に学習させます。展開されると、ノイズとして特定された音は伝送される前に除去され、聞こえなくなります。これには人間による多大な創意工夫も必要です。在宅ワークを最も妨げるノイズは何かを推定する際は特にそうです。 音声の観点から、AI がどのように Webex の機能を向上させたかをより良く理解するため、もう 1 人のエキスパート、Keith Griffin に話を聞きました。彼はシスコ CTO オフィスの AI および機械学習担当上級エンジニアです。
シスコのロゴが描かれた壁の前に立つ Keith の写真

Keith Griffin

「もう一度言ってくださいと人に頼んだり、騒々しい環境にいるのは気持ちのよいものではありません」。Keith によれば、これはコロナ禍以前、何年も悩みの種になっていました。「以前は、環境に自信が持てない人はビデオ会議には加わりませんでした」 しかし、コロナ禍とハイブリッド ワークへの移行の中でこうした課題の解決に対する要望が高まり、Webex はさまざまな機能を導入して取り組んできました。最も良い例は Optimize for my voice 機能です。これは Patrick が説明した距離に関する基本的な考え方を採り入れています。 Keith は言います。「シスコの機械学習/AI チームは本当にすばらしい仕事をやり遂げました。ノイズ除去のテクノロジーを開発しただけでなく、それを進化させ、たとえば Optimize for my voice 機能のようにその他のユースケースの問題を解決したのです。Optimize for my voice 機能では、無数のパラメーターに基づいてアクティブな発言者が誰かを判断します。主要な発言者の声を拾う一方で、検出された他の人の声は除去します」 機械学習によるノイズ除去に関しては、Keith がさらに興味深い例を挙げています。できるだけ多くの基準をカバーするため、Webex のソフトウェアはキーボードを叩く音やサイレン (さまざまな国のサイレンを認識できます)、庭仕事用の機械の音、犬の吠える声などを識別し、除去できます。事実、シスコ独自のノイズ検出の設計では、鳴き声の特徴を聞き分けて 100 種以上の犬種を識別することができます。 Keith が説明したとおり、ノイズ除去は単に周囲の雑音を消すだけではありません。よりインクルーシブで柔軟なコラボレーションを実現する効果があります。つまり、チームがより意欲的に、自信を持ってミーティングに参加できるようになるのです。 「シスコ ゴールウェイの拠点リーダー ミーティングでは、その時々で最大 14 名が参加します。今日参加したのは 12 名でした。3 名は子供を学校に送った帰りの車の中でした。4 名のチーム メンバーは犬の散歩をしていました」 このエピソードは、私たちが音声品質、音声への不安、ビデオ会議疲れ、それらがチーム コラボレーションに与える影響を考える上で「非常に」重要です。Keith はこう言います。
ある種のミーティングでは、参加者が日々の生活の中で継続でき、周囲の環境にかかわらず自信を持って参加できるようにする必要があります。車の中でも、歩きながらでも、鳴いている犬や通り過ぎる車の音を気にすることなく、相手に聞こえるのは自分の声だけだと確信できること。ハイブリッド ワークに役立つ音声品質とはそういうことではないでしょうか」
Webex の音声インテリジェンス (ノイズ除去、Optimize for my voice 機能などを含む) の導入までに注いだ労力は、膨大なものでした。その結果、Webex は今日までに、ユーザーのビデオ会議から時間にして 160 億分の背景ノイズを除去しました。 音声の世界におけるこうしたイノベーションは、ハイブリッド ワーカーや組織に、目に見える現実のメリットをもたらしています。Aragon Research 社が Webex を再度「ビデオ会議ソフトウェアのリーダー」に選出した理由もここにあります。 ここまで、音質を上げるのに必要なもの、つまり最先端のハードウェア、高度なソフトウェア、強力な AI について見てきました。次に、皆さんの音声エクスペリエンスを改善する実用的なヒントをいくつかお教えしたいと思います。 

ビデオ会議の音質を改善するためのヒント

ヒントその 1 最も頻繁にビデオ会議を行う場所を評価します。雑音に妨げられる可能性が高い時間はありますか。通常、自分の声は同僚にどのように聞こえていますか。Webex では、事前のマイク テストを簡単に行えます。 ヒントその 2 室内音響の基礎について学んでみましょう。日々の音問題を楽に解決できるようになります。先ほどの Patrick がご案内します。

ヒントその 3 他に方法がないとき以外、コンピューターのマイクを使わないようにします。一般的なヘッドフォン、外部マイク、高品質なシスコのヘッドセットのいずれでも構いません。とにかくコンピューターのマイクを使わないことが、音声への不安を軽減して音質を向上させる近道です。 ヒントその 4 集中して作業したいときは、プラスに働く音の性質を活用しましょう。集中力を上げる音楽のプレイリストをかけて、シスコのヘッドセットを装着します。または、チーム メンバーとリアルタイムで一緒に集中的な作業をしたい場合、Webex ミーティングでミュージック モードをオンにします。 ヒントその 5 チーム メンバーと一緒にノイズ除去をテストして、何が聞こえないかを確かめます。よくあることですが、犬が吠えると私たちはつい謝ります。すると同僚に「何が?」と返されるでしょう。ノイズがどれだけ除去されるかを理解して、雑音があっても相手には聞こえていないとわかっていれば、それまでよりもストレスを感じずに済むようになります。 
Webex 音声と音声をさらに高める製品を見て、チームが音声への不安とミーティング疲れを乗り越えるのをサポートしましょう。
その他の記事 自宅で高音質を実現するヘッドセットの 5 つの主な機能 いつでもクリアに通話: 音声品質を上げる 3 つのヒント Webex + Shure で会議室のオーディオ問題を解決

About The Author

Reilly Nolan
Reilly Nolan Content Writer Cisco
Reilly Nolan is a content writer for Webex.
Learn more

Topics


More like this