Tags: オーディオインテリジェンス, 人工知能
Webex はハイブリッド ワークでの働き方を向上させる新しい方法を常に追求しています。私たちのチームでは人工知能 (AI) と深層学習の方法を使ってすばらしいコラボレーション エクスペリエンスを実現するため、音声とビデオ、翻訳、文字起こし、さらに自動アシスタンスの改善に取り組んでいます。
AI への私たちのアプローチは、ユーザーが自宅、会社、外出先のどこから会話に参加していても、存在を認められ、意見が受け入れられ、尊重されていると感じられるようにするというものです。AI プラットフォームを設計するにあたっての私たちの目標は、コラボレーションにインクルーシブな考え方を採り入れ、ユーザーが世界のどこからでも、言語や性別、年齢に関係なく参加できるようにするということでした。この考え方については、最近公表されたシスコの責任ある AI フレームワークに関する記事に記載されています。ここでは、アルゴリズムやデータ セットから生じる可能性のあるバイアスを減らす、または完全になくすために私たちが採っているガバナンス、プロセス、教育の手段を説明しています。
Webex は統合された安全なコラボレーション エクスペリエンスを、シスコのデバイス、デスクトップ コンピューター、ノートパソコン、スマートフォン、その他の新しく登場するあらゆる機器に提供できるという、独自のポジションにあります。Webex のビジョンは、まるでその場で実際に会っているかのような (またはそれを超える) 体験を提供することです。私たちが目指す AI なら、理解を促進し、疲労を低減し、操作性を向上できます。私たちは AI を使用して参加者どうしのコミュニケーションをより明確にし、個々の参加者のニーズに対する適応力を向上させることに集中的に取り組んでいます。
Webex では、コラボレーションを総合的な視点で捉えて AI の機能を設計してきました。これは一般によく見られる、AI に関連するテクノロジーのサイロ化とは異なります。
私たちの目標は、機械学習のインテリジェンスを音声、ビデオ、自然言語に応用して、複雑なハイブリッド ワーク環境にエンドユーザーが適応し、成果を出せるようにすることです。
Webex の機械学習モデルは、幅広い言語や話し言葉のアクセントとコンピューターの視覚情報処理のための属性を認識するため、大規模かつ多様なデータ セットを使ってトレーニングされます。
Webex のテクノロジー アーキテクチャは機械学習の計算に対し本質的にプライバシーとセキュリティを守るアプローチを採っています。そのため、処理はクラウドでなく主にエンドユーザーのパソコンやデバイスで行います。この AI テクノロジーにおけるエッジコンピューティングのアプローチにより、メディア資産やデータのセキュリティが向上します。Webex の AI 開発は、シスコのデータの信頼の原則に基づいて進められています。
エッジ中心のアプローチは操作の反応性を高めます。クラウドで処理する場合、データが往復する間に遅延のばらつきが大きくなりますが、エッジならメディアを瞬時に処理できます。また、私たちのアルゴリズムは、さまざまなプロセッサ、消費電力、オペレーティング システムに拡張できるように設計されており、リモート ワークでも使用感を損ねることがありません。
Webex の AI テクノロジーはバックグラウンドで稼動するため、全体的なエクスペリエンスを向上させ、また Webex デスク フォン、デスクトップ、会議室デバイスに直接統合できます。
Webex の包括的でコラボレーションを重視した AI アーキテクチャがメディア使用の幅を広げ、新しい使用事例や顧客特有の領域にすばやく適応して新しいチャンスを創出できます。
Webex のお客様は、私たちのポートフォリオを使用してさまざまな場所からコラボレーションをしています。Webex では、参加者の特性を環境にかかわらず特定してから、AI と機械学習を活用して入ってくる音声やビデオを分離し豊富なデータのストリームとしてセグメント化します。広く導入されたリアルタイム コミュニケーションのソフトウェアで、重要なコンポーネントのストリームをこのレベルできめ細かく抽出することは、以前は不可能でした。
入ってくる音声ストリームの分離には以下のようなものがあります。
データ ストリームが分離されると、Webex はユーザーごとに音声コンポーネントを統合し、各参加者の音声ストリームを個別に選択、修正、処理できるようにします。
使用事例に従って、個々のデータ ストリームは音声として結合され、他の参加者に共有されます。この方法を採ることで、さまざまな使用事例や要件に対応できます。たとえば、Webex スマート音声機能により、参加者はすべての背景ノイズを削除することも (「ノイズ除去」)、すべての背景ノイズと話し声を削除することも (「Optimize for my voice」)、楽器を弾いたり歌ったりする場合にオリジナル音声を聞くことも (「音楽モード」) できます。
再構成された音声ストリームは、理解しやすい、聞き取るのに努力を必要としない音声として他の参加者に届けられます。
Webex の AI アーキテクチャはコラボレーションに重点を置いているため、メディア ストリームをさまざまなモデルによって何度も処理するのではなく、メディアを 1 つの計算サイクルで分離します。このアプローチによって全体的な処理効率が向上し、低遅延を実現できます。また、ストリームの計算サイクルに新しいコンポーネントを簡単に追加できるため、入力ストリームの全体像を把握して、新しくより充実した使用方法が可能になります。Webex のメディア ストリーム処理のアプローチは、次のような分野に拡大できます。
Webex では発言とノイズを区別できるだけでなく、マイクからより近い/遠い発言者を区別したり、室内の残響を調整したりすることもできます。こうした要素はすべて別のストリームとして特定されるため、個別のユーザーのニーズに、より柔軟に対応できるようになります。これらのストリームを個別に選択、修正、処理できるほか、選択した音声コンポーネントから新しい音声ストリームを再構成することもできます。たとえば、ある会議では前方の発言者も後方の発言者も同じ音量にし、別の会議ではマイクに一番近い発言者の声を中心にしたいといった要望に応えられます。また、「OK、Webex」などの音声イベントのトリガーを認識することも、参加者にとって重要なその他の環境中の音声を際立たせることもできます。
メディア ストリームへの Webex のアプローチにより、ビデオに映った場面をより詳細に把握し、要素を組み立て直してビデオ品質を改善できます。たとえば、参加者と背景を見分けたり、使用するジェスチャーを認識したりできます。こうした個別のストリームを選択、修正することで、プレゼンタのビデオを最大限に見やすく、参加者の集中を妨げないようにレンダリングできます。この方法を使うことで、さまざまな用途の可能性が開け、参加者が条件のよくない環境にいるときでも、より簡単にコラボレーションできるようになります。
Webex Assistant を使うと、コラボレーションで音声コントロール、プロアクティブなインテリジェンス、文字起こし、翻訳サービスを利用できます。この機能を実装するにあたっては、より多くの言語認識をデバイスで処理し、正確性を増すとともに、標準的なクラウドベースのシステムと比べて遅延を最大 4 分の 1 に低減しています。また、Webex Assistant スキルを API で提供しているため、サードパーティの開発者が新しい機能を追加したり、自社のアプリケーションに音声コントロールで接続したりできるようになります。文字起こしと翻訳に対応する言語の数を拡大し、Webex デバイスの言語も既存の英語にドイツ語、フランス語、スペイン語、日本語が加わりました。
コンピューター ビジョンにより、ビデオ ストリーム中の空間環境の特定が可能になります。Webex の 3D に対する取り組みは、完全な仮想現実空間を実現するために AR/VR ヘッドセットを使用するよりも、プレゼンタや参加者の認知的な負荷を低減する考え方に重点を置いています。たとえば、Webex では正確な 3D モデルを抽出して調整できます。また、参加者の顔の形状をスキャンして画像処理やパーソナライゼーションができます。
Webex の AI は、より柔軟なチーム コラボレーションを実現し、ユーザーがミーティングに参加する方法を拡大できます。AI を活用した強力なメディア ストリーム処理モデルは今日、世界有数のコラボレーション エクスペリエンスを生み出し、将来的な新規分野を拓く可能性を秘めています。
AI テクノロジーがコラボレーションをどのように変えるかを体験してください。今すぐお問い合わせいただき、デモをご覧ください。
その他の記事