我們對包容性音訊/視訊體驗 AI 的追求如何促進協作的未來發展

Webex 持續創新混合工作模式體驗。我們的團隊運用人工智慧和深度學習方法提供卓越的協作服務，包括改善音訊和視訊體驗、翻譯功能和語音轉錄功能，以及擴大自動協助的適用範圍。無論使用者在家中、辦公室還是通勤的路上參與協作，我們採用人工智慧的做法都能讓使用者感受到自己可以順利傳達想法，而且備受關注及重視。我們的 AI 平台專為提供具包容性的協作做法而設計，讓世界各地的使用者 (無論語言、性別或年齡) 都能參與協作。如要瞭解這個做法，請參閱我們近期發布的 Cisco 負責任 AI 架構介紹 (英文)，當中說明我們為了減少或排除演算法或資料集可能產生的偏見而採取了哪些管理、處理和訓練措施。 Webex 具有獨特優勢，可為我們的各種裝置、桌上型電腦、筆記型電腦、智慧型手機和新興裝置格式提供安全的整合式協作體驗。我們的願景就是提供與現場協作同等或更優質的體驗，而我們採用的 AI 做法不僅可讓使用者更輕鬆地互相理解、減少倦怠感，使用上也更簡單。我們致力於使用 AI 讓參加者更清楚地互相溝通，並且為個別參加者提供更貼近需求的協作體驗。 Webex 的 AI 功能架構以協作做為整體考量，而不是像一般的做法採用各自獨立的 AI 技術。

專為複雜的混合工作環境而設計

我們的目標是將機器學習智慧技術應用於音訊、視訊和自然語言，以便提升使用者適應混合工作環境的能力，並在該環境中成長茁壯。

提供具包容性的協作做法

我們的機器學習模型使用多樣化的大型資料集進行訓練，可識別各式各樣的語言和口音，以利電腦辨識講者的語音和特徵。

以隱私權和安全性為核心考量

我們的技術架構主要會在使用者的筆記型電腦和裝置上處理運算程序，而不是將資料傳輸到雲端處理，以便直接以隱私且安全的方式進行機器學習運算。這個由 AI 技術採用的邊緣運算方法直接提升了媒體資產和資料的安全性。請放心，Webex 的 AI 開發方法皆遵循 Cisco 資料信任原則 (英文)。

低延遲的協作體驗

以邊緣為中心的方法也可提供回應式體驗，因為媒體的處理時間只需幾十毫秒。不過，資料在雲端往返會導致延遲時間不一。為此，我們設計出可依不同處理器類型、功率預算和作業系統調整規模的演算法，確保使用者隨時隨地都能順利工作。

簡化 Webex 裝置的協作體驗

為改善整體體驗，Webex AI 技術會在背景運作，而且直接整合至 Webex 桌上話機、桌上型電腦和會議室裝置。

帶來持續創新的商機

Webex 以協作為中心的全方位 AI 架構不僅提供更豐富的媒體體驗，也帶來新的商機，讓使用者配合新的使用案例和客戶專屬網域快速調整。

Webex 的 AI 媒體串流分析與重建方法

Webex 客戶採用我們的產品組合隨時隨地進行協作。我們的做法就是識別出參加者的特徵 (無論參加者身處何種環境中)，然後利用 AI 和機器學習 (ML) 技術將收到的音訊和視訊分成資料豐富的不同串流。過去在廣泛部署的即時通訊軟體中，我們還無法如此詳細地擷取重要的元件流。

1.採用機器學習技術的分解程序

分解程序會將收到的音訊串流進行區分，包括以下情形：

根據語音位準和殘響估算講者與麥克風之間的距離，以區分出前景和背景講者。
偵測出音訊活動，包括特定的聲音觸發條件或關鍵字。
區分出殘響 (即室內輕微的回音) 並進行調整，讓參加者的聲音更清晰。
將背景音樂分到專屬的串流，以便在重組階段調整音量。
區分出背景噪音，這可能包括環境元素，使用者可視使用案例調整。

2.每位使用者的音訊元件

區分資料串流後，系統會替每位使用者將其匯總為音訊元件，以便分別選取、修改每個參加者的音訊串流，或對這些音訊串流分別採取行動。

3.採用機器學習技術的重建程序

視使用案例而定，我們可以將個別資料串流與已分享給他人的音訊重新結合。這種做法可讓我們滿足各種使用案例和需求。比方說，Webex 智慧型音訊功能可讓參加者選擇要移除所有背景噪音 (即噪音移除功能)、移除所有背景噪音和背景語音 (即「最佳化我的聲音」功能)，或是在演奏樂器或唱歌時聆聽原始聲音 (即音樂模式)。

4.音訊呈現

系統會將產生的音訊串流以清晰易懂的方式呈現給其他參加者。

AI 架構具運算優勢，適用於新的使用案例

我們的 AI 架構以協作為中心，因此我們只要執行一次運算週期就能區分媒體內容，不必使用不同模型多次處理媒體串流。這種方式可提升程序的整體效率並提供低延遲的體驗。我們也可以在串流運算週期中新增元件，以利更充分地瞭解輸入串流，並將 AI 架構運用在新的使用情境。Webex 媒體串流處理方法的適用範圍可延伸至以下情境：

語音辨識技術加強識別能力

我們可以區分噪音與講者的聲音、辨識出講者是否在麥克風附近，甚至可以調整室內殘響。系統會將這些元素區分為不同的串流，以利按照特定使用者的需求更彈性地調整。我們可以分別選取、修改串流及對串流採取行動，還能透過指定的音訊元件重建音訊串流。舉例來說，在一次通話中，我們可能想將前景或背景講者的音量調整為同樣大小，不過進行其他通話時，我們可能只想專注在離麥克風最近的講者。此外，系統也可以辨識音訊活動觸發條件 (例如「OK Webex」)，或是強調對參加者來說可能很重要的其他環境音訊。

機器視覺讓視訊串流功能更強大

我們的媒體串流方法可讓我們更充分地瞭解視訊場景和重組元素，以便改善視訊品質。比方說，我們不僅可以區分參加者與他們的背景和手勢，還能選取及修改這些獨立的串流，盡可能讓參加者清楚地看見主講者及減少干擾，藉以呈現更優質的視訊內容。這種方法開創了許多新的可能性，可讓參加者在更艱難的環境中輕鬆進行協作。

Webex Assistant 提供更強大的協作體驗

Webex Assistant 提供協作服務的語音控制選項、主動式智慧功能、語音轉錄和翻譯服務。我們已實作這項服務，方法是在裝置上處理更多語言辨識程序、提高準確性及減少延遲 (與標準雲端系統相比最多減少了 4 倍)。Webex Assistant 也提供包含 Webex Assistant 功能的 API，方便第三方開發人員新增功能以及使用語音控制選項連結至應用程式。我們為語音轉錄和翻譯功能新增了更多支援的語言，甚至還為裝置新增了其他語言，包括英語 (既有語言)、德語、法語、西班牙語和日語。

機器視覺開創採用 3D 技術的新領域

電腦視覺技術讓系統能夠識別視訊串流中的空間環境。Webex 的 3D 方法著重於減輕主講者和參加者的認知負擔，而不是要求他們使用 AR/VR 頭戴式裝置來展現完整的虛擬實境空間。例如，我們可以擷取準確的 3D 模型和調整內容，也可以掃描參加者的臉部幾何形狀，對影像進行修飾及個人化處理。 Webex 的 AI 做法可讓團隊更有彈性地進行協作，還能讓參加者以更多方式參與會議。現今強大的 AI 媒體串流處理模型不僅為我們帶來世界級的協作體驗，也開創未來發展的新領域。

想體驗不同的協作 AI 技術嗎？歡迎立即與我們聯絡以索取示範資源。

深入瞭解 設計負責任的 AI 系統支援未來工作型態的最新 Webex 人工智慧功能提升混合環境的工作與客戶體驗

About The Author

Chris Rowen VP of Engineering Cisco

Chris is a Silicon Valley entrepreneur and technologist known for his groundbreaking work developing RISC microprocessors, domain-specific architectures and deep learning-based software.

Learn more