我们对包容性音频/视频人工智能技术的不懈追求将如何赋能未来的协作

Webex 坚持创新以提供更佳的混合办公体验。我们团队利用人工智能和深度学习方法来提供卓越的协作体验，比如，优化视听体验、翻译功能和转录功能，以及扩展自动协助功能。无论用户是在家里、在办公室里还是在出差途中参与协作，我们的人工智能方案都可以帮助他们获得清晰视听体验以及感受到重视。我们设计人工智能平台的目标是，提供包容性的协作方案，支持世界各地的人们参与协作，而不受语言、性别、年龄等因素的影响。您可以阅读我们近期发布的思科负责任的 AI 框架以了解此包容性协作方案，其中指明了我们为减少或消除算法或数据集中可能会出现的偏见而采取的治理、流程和培训措施。 Webex 具有独特的优势，能够在 Webex 设备、台式机、笔记本电脑、智能手机和新兴设备格式之间提供安全的集成式协作体验。我们的愿景是，提供身临其境般的卓越体验，甚至更为出色的体验。我们的人工智能方案可帮助增强理解、减少疲劳，以及提高使用便捷度。我们专注于通过人工智能来提高参与者间沟通过程的清晰度，以及更好地满足参与者的个人需求。 Webex 设计的人工智能功能将协作过程视为一个综合的整体，而不是一些与人工智能相关的典型技术孤岛。

专为复杂的混合办公环境设计

我们的目标是将机器学习智能应用于音频、视频和自然语言，以提高终端用户的适应性，并在复杂的混合办公环境中实现蓬勃发展。

提供包容性的协作方案

我们的机器学习模型已通过大量不同的数据集进行训练，可以识别广泛的语言和语音口音，以及计算机视觉人口统计学特征。

隐私和安全是重中之重

通过主要在终端用户的笔记本电脑和设备上进行处理而非传输到云端进行处理，我们的技术架构提供了一种隐私且安全的机器学习计算方法。从根本上，这种针对人工智能技术的边缘计算方法提高了媒体资产和数据的安全性。Webex 的人工智能开发方法基于思科的数据信任原则。

低延迟协作体验

以边缘为中心的方法还提供及时的响应，因为媒体可以在几十毫秒内得到处理，而如果要往返传输到云端将会导致变化幅度极大的延迟。我们的算法经过专门设计，可以扩展为适应不同的处理器类型、功率预算和操作系统，以提供随时随地办公的能力。

在 Webex 设备上简化协作体验

Webex 人工智能技术在后台工作，以提供更加卓越的整体体验，并可以直接集成到 Webex 桌面电话、台式机和会议室设备。

提供持续创新机会

Webex 以协作为重点的综合性人工智能架构极大丰富了媒体体验，从而提供了快速适应新用例和客户特定领域的新机会。

Webex 的基于 AI 的媒体流分析和重建方案

图片 1：Webex 基于人工智能的音频处理模型

Webex 客户依靠我们的产品组合实现随时随地协作。我们的方法可识别任何环境下的参与者的特征，然后利用人工智能和机器学习技术将传入的音频或视频分离成一些含有丰富数据的流。过去，无法在广泛部署的实时通信软件中对重要数据流实现如此详细的提取。

1.基于机器学习技术的分解

此分解会将传入的音频流分离为：

基于语音电平和语音混响来估计说话者距麦克风的距离，进而识别前景和背景中的说话者。
将检测包括特定声音触发器或关键词在内的音频事件。
混响是指声音在房间里的微妙回声。可以将混响分离出来，并且对其进行调整，使参与者的声音变得清晰。
背景音乐将分离为独立的流，从而支持在重组阶段调整音量。
背景噪音将分离出来，并且可包括环境元素，这些元素可根据用例来进行调整。

2.针对每个用户的音频组件

在分离数据流后，会将这些数据流汇总到针对每个用户的音频组件，使我们能够单独选择、修改或处理每个参与者的音频流。

3.基于机器学习的重新组合

根据用例，我们可以将各个数据流重新组合成与他人共享的音频。通过这种方法，可以处理多种用例和满足各种需求。例如，Webex 智能音频功能使与会者能够选择是否要消除所有背景噪音（消除噪音）、消除所有背景噪音和背景语音（优化我的声音），或在您演奏乐器或唱歌时听到原始声音（音乐模式）。

4.渲染音频

生成的音频流将以特殊方式传送给其他参与者，使参与者不需要过多思考，即可轻松理解音频流。

计算优势助力支持新用例

我们的人工智能架构以协作为重点，因此，我们可以在一个计算周期中分离媒体，而不是通过不同的模型多次处理媒体流。这种方法可提高流程的整体效率，并可以缩短延迟。我们还可以轻松地将新组件添加到流计算周期中，从而支持具有更多输入流图片的新使用场景。Webex 媒体流处理方法扩展为：

语音识别增强理解力

我们可以区分说话者和噪音，区分离麦克风较近或较远的说话者，甚至可以调节房间的混响。这些内容都将识别为独立的流，从而能够更灵活地满足特定用户的需求。我们可以单独选择、修改和处理这些数据流，以及在选定音频组件中重建新的音频流。例如，在某次呼叫中，我们可能需要平衡前景或背景中说话者的音量，而在其他呼叫中，我们可能只希望突出离麦克风最近的说话者的声音。我们还可以识别音频事件触发器（如 “OK Webex”），或突出其他可能对参与者有着重要作用的环境音频。

机器视觉扩展视频流的功能

我们的媒体流方案可以丰富我们对视频场景的理解，并重新组合各种元素以提高视频质量。例如，我们可以根据参与者的背景和手势来区分参与者。我们可以通过选择和修改这些独立的流来渲染视频，为其他参与者呈现最佳演示效果，以及将干扰降到最低。这种方案开启了无限可能性，并且使参与者可以在复杂的环境下轻松地协作。

Webex 助理优化协作体验

Webex 助理可提供语音控制协作体验、主动智能、转录和翻译服务。我们实现 Webex 助理的方式使得能够在设备上处理更多的语言识别工作，与基于云的标准系统相比，提高了准确性，并将延迟性降低了 4 倍。Webex 助理还提供了具有 Webex 助理功能的 API，使得第三方开发者可以添加新功能，并通过语音控制来连接其应用。我们增加了转录和翻译服务所支持的语言数量，并增加了设备所支持的语言，包括英语（现有语言）、德语、法语、西班牙语和日语。

机器视觉开辟了以 3D 为动力的领域

计算机视觉能够识别视频流中的空间环境。Webex 3D 方法侧重于减少演讲者和参与者的认知负担，而不要求他们戴上 AR/VR 视图器来体验完全虚拟的现实空间。例如，我们可以提取准确的 3D 模型和改编版本。我们还可以扫描参与者的面部轮廓，以实现图像增强和个性化。 Webex 的人工智能方案可以提高团队协作的灵活性，以及丰富人们参与会议的方式。如今，基于人工智能的强大媒体流处理模型可提供一流的协作体验，并开辟了未来新的领域。

想要体验人工智能技术为协作带来的不同之处吗？请立即联系我们，以观看演示。

About The Author

Chris Rowen VP of Engineering Cisco

Chris is a Silicon Valley entrepreneur and technologist known for his groundbreaking work developing RISC microprocessors, domain-specific architectures and deep learning-based software.

Learn more