Tags: 高画質ビデオ, 画面共有, ビデオインテリジェンス
オフィス勤務の再開に伴い、ハイブリッド ワークが新たな勤務スタイルとして急速に定着しつつあります。ハイブリッド ワークでは、従業員が会議テクノロジーの最新機能を活用し、場所を問わずにつながりを維持してコラボレーションを行う必要があります。コロナ禍を受けて、ビデオによるコミュニケーションは不可欠となり、自宅やモバイルでの使用が大幅に増加しました。このような環境では、帯域幅の低さや変動、質の悪い照明やカメラ、背景ノイズなどにより、高品質なメディアを提供するのは概して困難です。ユーザー エクスペリエンス改善にむけたイノベーションの軸となるのは、ユーザー エクスペリエンスの測定です。この記事では、ビデオ品質のこの多元的な問題にシスコがどのように取り組んでいるかをご紹介します。
ビデオ品質の測定はなぜ難しいのでしょうか。その理由の 1 つは、ビデオ品質の定義が難しいことです。ビデオ品質の低さは一目見れば分かりますが、品質の低さの種類はブロックノイズ、ノイズ、フレームのフリーズや破損、同期のずれなど、さまざまです。またビデオ会議システムには、非常に高度な適応性があります。ネットワークの信頼性が低く、CPU 使用率とビデオ コンテンツが変化する中で、Webex などのアプリケーションは解像度の変更、フレーム レートの調整、エンドユーザー クライアントとの連携によって状況に適応し、最適なネットワーク戦略を決定します。そのため、ユーザーのエクスペリエンスの目標を定めることは困難です。また個別のビデオ コンポーネントの品質の測定はトップダウンおよびボトムアップのプロセスです。全体的なユーザー エクスペリエンスを測定するという面ではトップダウンであり、個別のコンポーネントのパフォーマンスとその機能を測定することはボトムアップです。
ユーザー エクスペリエンスの重要な要素の 1 つは、ネットワークの状態が悪いときにクライアントがどのようにふるまうかです。ビデオ ストリームには、以前のフレームから予測されたデータが含まれているため、データ ロスが発生すると受信側でエラーが発生します。これに対しさまざまな対策を取ることができます。データ層では、前方誤り訂正または再送を使用することによって、エラーを最小限に抑えられます。ビデオ ストリームは、新しいキー フレームによって再開できます。残っているエラーはすべて、時間的隠匿や空間的隠匿を組み合わせて隠匿する必要があります。空間的隠匿では周囲のピクセルから情報を借用して失われたデータを再構築し、時間的隠匿では隣接するピクセルから情報を借用して失われたデータを埋めます。また、データ レートはより低いビットレートとより小さいビデオ解像度を使用することで削減できます。これらの手法には、それぞれ利点も欠点もあります。指標という観点でいうと、ユーザー エクスペリエンスの測定は非常に困難です。受信したビデオは、送信されたビデオと同じではありません。ベンダーによって採用している最適化技術は異なるため、ベンダーによって表示されるビデオも異なります。たとえば、鮮明さよりも動きを優先する場合も、その逆の場合も、遅延を増やして再送を可能にする場合もあります。ベンダーは、品質最適化手法を共有していません。理由は、それらの手法が独自の技術であり「秘伝の技」を実現するものだからです。最適化を行うのが送信側、送信中、または受信側であるかにかかわらず、最適化されたビデオはソース ビデオと異なっています。ロスが発生しなかったとしても、クライアント側でノイズ除去、超解像技術の使用、プリフィルタリング/ポストフィルタリングなどの適応処理が行われ、これらの処理もベンダーによって異なります。こうしたすべての要因によって、同じビデオでありながら比較は非常に困難なのです。
それでは、このような状況で品質を比較するにはどうすればよいのでしょうか。その方法を理解するには、フルリファレンス (FR) 指標とノンリファレンス指標の違いを理解する必要があります。FR 指標はビデオとそのオリジナルを比較する必要があるときに使用します。同じ解像度、同じフレームレート、各入力フレームが出力フレームに一致するなど、比較の際にピクセル単位の対応性が必要です。単一の処理で入力に何らかのロスが発生した可能性があり、ロスを最小限に抑えることを目的とするときに非常に有効です。
FR 指標には、PSNR、SSIM、MS-SSIM などさまざまものがありますが、高い支持を得ているのは、最先端の指標と考えられている Video Multimethod Assessment Fusion (VMAF) です。この FR テスト手法は、Netflix 社が自社のビデオ ストリーミング サービスのビデオ品質評価を実施するために特別に設計したものです。VMAF や、その他の FR 指標を使用して品質を測定するのは非常に困難です。受信したビデオとソース ビデオは全く異なっていることがあるため、送信されたビデオ (の一部) とピクセルごとに比較できるように、出力の拡張、トリミング、同期を行う必要があります。私たちの経験をお話ししますと、ベンダー比較でこのアプローチを試したのですが、そこで必要な操作ではエラーが頻繁に発生します。さらに、VMAF は差異はうまくキャプチャしますが、絶対的な品質をキャプチャするわけではありません。会議では、高額な費用を投じて制作したビデオ映像は使用しません。ユーザー エクスペリエンスは受信したビデオそのものの品質に影響を受けるのであり、オリジナルとの差異だけが要因ではありません。さらに、VMAF は空間のみの指標です。時間的影響をキャプチャしないため、スコアは単なる平均的なフレーム スコアになります。
代替案として、近年ノンリファレンス (NR) ビデオ品質指標に関する多くの研究が進んでいます。これは、元の映像との比較を行わずに、絶対品質レベルの測定を試みる手法です。信頼性の高い適切な NR 指標が見つかれば、ビデオ ストリームに起きる適応とロスを考慮すると、NR 指標は会議アプリケーションに最適です。一般的な NR 品質指標は Naturalness Image Quality Evaluator (NIQE) です。NIQE は、統計モデルを用いて統計と自然画像との差異を測定します。NIQE は、ソース画像の品質や、ビデオ パイプラインでのロスや処理方法にかかわらず、あらゆる状況のエンド ユーザーのビデオ品質を採点できます。NIQE のような NR 指標は、ソース ビデオと受信ビデオ両方を個別に評価するのに使用できます。次にスコアの差異によって品質のロスをキャプチャできるため、ロスの復元技法やビデオの最適化技法を評価できます。キャプチャされたビデオは品質が低いことがあるため、ビデオ最適化によってさらに改善できます。私たちの経験では、NIQE は非常に信頼性が高い指標ですが、重要ないくつかの機能が欠けています。たとえば、時間的品質にはまだ対応していません。
NIQE の制限の 1 つは、すべてのビットレートを 1 つのフレームに割り当て、他のフレームを送信しないことで、非常に高い NIQE スコアを獲得できる可能性があることです。これは NR 指標に限った問題ではありません。既に説明したように、VMAF を使用しても、実際に受信したフレームのみを対応するフレームと比較することしかできないため、同じ問題があります。したがって、検討すべき最初の追加の指標は、ドロップ フレーム指標 (DFM) です。この指標は、一連のドロップされたフレーム数と、エラー回復手法としてキーフレームが使用される回数を算出します。場合によっては、キーフレームの使用によって、NIQE スコアに誤判定が生じることがあります。ですから、この空間的測定により、正確な結果と誤判定を区別することができます。NIQE は、画像品質の多くの側面をキャプチャしますが、一部の圧縮アーティファクトはキャプチャしません。そのため私たちは、ブロッキングの測定とぼやけの測定も利用しています。FR および NIQE 指標はともに、エンコードされたビデオに共通のこれらの要素を解釈しないことがあるためです。
FR 指標には、個別のパイプライン要素の評価などの役割があります。しかしシスコは、エンドツーエンドのビデオ品質を正確に評価するあたっては、ノンリファレンス指標がユーザー エクスペリエンスを最も正確にキャプチャできると考えています。人間の知覚は驚くほど複雑であるため、包括的な指標の設計は困難ですが、次の 4 つの指標に従うことによって、品質エクスペリエンスの大半をキャプチャすることができます。ノンリファレンス (NIQE) | DFM | ブロッキング | ぼやけ これらの指標を組み合わせることで、複数の異なる次元にわたる主観的なビデオ品質を簡潔に測定できます。これらの指標は、エンドツーエンドで失われた品質と、ソースの品質自体の影響両方をキャプチャできます。会議システムは多くの場合、品質の低いソース コンテンツを受け入れ、さまざまな手法を使用してエンドツーエンドのビデオ品質を改善または維持しなければなりません。そのため品質評価では、FR 品質測定手法に頼るのではなく、エンドツーエンドのエクスペリエンスを考慮してこれらの要因を明らかにする必要があります。したがってシスコは、エンドツーエンドの品質評価において、エンド ユーザーのエクスペリエンスをより正確に反映するノンリファレンス指標の使用に重点を置いています。
ここで紹介した指標は完全なものではありません。たとえば、グラフィックス/合成コンテンツの品質の評価などに制限があるため、私たちはアプローチの開発を継続しています。険しい道ではありますが、私たちはノンリファレンス指標こそビデオ品質エクスペリエンスの評価に最適なフレームワークであると確信しています。Webex App の最新リリースでは、すべてのメディア品質指標が大幅に改善されています。改善点には、ビデオ品質、音声品質、背景ノイズ抑制、CPU 使用率や、ハイブリッド ワーク向けの革新的機能などが含まれます。コロナ禍を受けて、今年はすべてのベンダーのソリューションのメディア品質が大幅に改善されています。シスコの継続的なテストの結果、Webex App は他のベンダーと同等か、それを上回るビデオ品質を提供することがわかっています。Webex App は、今後も市場で非常に強力な競争力を維持し、品質とパフォーマンスを最重要課題として取り組んでいきます。
共同執筆者:Thomas Davies (プリンシパル エンジニア) Thomas Davies は、シスコのコラボレーション テクノロジー グループ (CTG) のプリンシパル エンジニアです。彼はサテライト ネットワーキング、RF コミュニケーション、ブロードキャスティング分野の経歴も持っていますが、自身の 20 年以上のキャリアの大半をビデオ処理およびビデオ圧縮 (コーデック) に費やしてきました。シスコには 10 年以上勤務し、次世代コラボレーション エクスペリエンスの創出に携わっています。HEVC (H.265)、AV1 などのビデオ圧縮基準の確立に貢献したのみならず、Cisco Webex などの実際の製品へのこれらの基準の実装にも尽力しています。詳細情報 毎回適切なビデオ会議を実施する方法 Webex の新機能: 2021 年 9 月 仮想ミーティング/イベント中のブレークアウト セッション活用のベスト プラクティス