声音至关重要:音频质量在视频会议中发挥的作用

On By Reilly Nolan1 Min Read
Man with headset listening to audio with smartphone_ccexpress
关于混合办公,我们了解到:随着数字办公场所的不断发展,人们面临的挑战也在日益增多。我们知道,对于经常开视频会议的办公人员来说,会议所引起的疲劳已达到前所未有的程度。 但这种疲劳不仅来源于视频会议。正如隐喻的冰山理论所说:“在露出海面的冰山尖下方隐藏着巨大冰体”,在混合办公和远程办公人员所感受到的所有疲劳中,视频会议所引起的疲劳只占一小部分。 究竟是什么造成这种“冰山”型焦虑情绪?对于很多人来说,这一切与声音有关。

音质是什么?

您是否还记得曾经完全被声音所吸引?在安静的高速公路上长途驾驶时,将音响的音量开到最大。寒冬在滩头堡上听海浪的咆哮。小酒吧中的现场表演,声音达到 11/10,但没有人在乎。喇叭声响起的那一刻,屏幕里放起某电影系列史诗般的开场白,滚动的屏幕穿越到遥远的银河系。 我们对声音的感受是主观的,这种感受可以使人平静,有时也会使人烦躁。一些音乐能让某人感觉放松,但对另一个人来说绝对不能在工作期间播放。我们中的一些人需要在日常工作时播放背景播客,而另一些人则无法在专注于工作的同时收听播客。 但所有这些例子都有一项假设:清晰流畅的音频体验。在声音压缩和流式传输技术极为先进的数字时代,这种音频体验并不罕见,而且还应该是对音质的基本要求。 那么,是什么让这种我们所期盼甚至渴望的美妙声音体验与众不同呢?让我们花点时间来了解一些基础知识。 声波 声音由不同频率的振动产生,以波的形式传播。频率的测量单位是赫兹 (Hz),而我们通过音调来感受声音的频率。人类发出的声音频率的范围为 80 Hz 至 14 千赫兹 (kHz)。人耳听到的声音频率的范围为 20 Hz – 20 kHz。声音频率较低则意味着音调较低,例如内燃机启动的声音、时髦的低音线条或男中音歌手的声音。声音频率较高则意味着音调较高,例如叉子尖头敲击玻璃或吹口哨的声音。 然而,在传输声音时,情况会变得有点复杂。传输过程始于无线电发射器,发射器会产生一个包含音频信息的电子信号。接着,信号通过天线放大,然后由无线电波传送到无线电接收器。之后,接收器提取此信息并将其发送到设备(如扬声器、显示屏等)。 在 20 世纪初,这些组件独立存在并且体积庞大,可将城市摩天大楼与遥远社区连接在一起,是通过提供共享体验来将世界联系起来的非凡壮举。 发展到今天?如今,每部智能手机都具备此技术。通过连接到网络的任何设备,声音可以在全球范围实现实时分解、数字化和传输。 在视频会议方面,如今大多数与会者的音频都通过基于 IP 的语音传输 (VoIP) 技术进行传输。基本上,音频都是通过互联网而不是蜂窝网络发送的。VoIP 视频会议的音频质量更多地取决于个人的网速,而不是像诸如传统电话系统中蜂窝网络信号塔距离这样的因素。 音质取决于很多因素,但以下四点最为关键:
  1. 采样率。每秒从原始模拟音频中采集的数字样本数量。通常,采样率以 kHz 表示(我们经常看到标准电话的采样率为 8 或 16 kHz,流式音频的采样率为 44.1 kHz),采样率越高说明音频质量越好。
  2. 比特率 这是指数字音频文件中包含的数据量。比特率以“每秒千比特”(kbps) 为单位。与采样率一样,比特率越高通常表示音频质量越好。
  3. 音频编解码器。用于压缩和解压缩数字音频的算法。在过去几十年中,G.711 窄带音频编解码器(可参考 C-3P0 的声音)一直是用于编码电话音频的标准。但是,在我们如今所处的时代,G.722 等高清音频编解码器和其他编解码器可以满足宽带标准并提供更高质量的音频。
  4. 带宽归根结底,带宽可能是对 VoIP 通话和视频会议的音频质量影响最大的因素。如果上传速度很慢,大多数平台会默认使用窄带音频编解码器。如果网速较快,则可使用宽带和全频段编解码器提供高清音频。
可以花时间思考一下:视频会议如何使这些因素变得错综复杂。即使只有少数与会者,如果有人通过智能手机使用蜂窝网络,有人使用笔记本电脑或其他设备,所有这些设备的网速和供应商都不相同,则会增加潜在的音频问题。

为什么音质对于视频会议非常重要?

新冠肺炎疫情突然爆发,使整个世界和人们的工作模式发生翻天覆地的变化,并且持续到现在已经快两年了。考虑到我们经常通过视频进行沟通和协作,我们必须了解全球转向混合和远程办公模式对办公人员产生的影响。 随着人们进行更多的研究和分析,我们可以看到视频会议所引起的疲劳剧增。我们知道,近半数员工表示在远程办公期间感到孤独,61% 的员工表示视频会议引发的疲劳有所增加。也许更令人担忧的是:90% 的受访者在居家办公期间都遇到了协作问题。 在声音方面,可以很容易地发现一些潜在问题:
  • 带宽捉襟见肘时,音频质量会受到影响。试想一下,当同事说您的视频卡顿时那一瞬间的焦虑感! 
  • 回声也可能会造成会议中断,导致每个人的音频体验变得不愉快。
  • 串音干扰会给那些不愿说话的人带来挑战,对于致力打造包容性体验的企业来说,这个问题非常严重。
  • 如果背景噪音长期无法解决,则会打乱发言人的节奏,分散听众的注意力,并对会议造成严重影响。
随着时间的推移,这些问题可能会引发对虚拟协作的广泛而长期的焦虑情绪。如果我们在音频性能方面不断遇到问题,我们的协作意愿就会不断降低。 这正是问题的关键,也是被我们忽视的一点。无论我们是为了相互协作还是仅仅为了感知世界,声音都是我们日常体验的一个核心方面。研究表明,在某些情况下,声音有助于缓解压力。另一方面,也有研究表明,声音会引发焦虑甚至抑郁情绪。《日常事物的设计》中,Don Norman 指出声音在产品设计背景下具有的双重性质(尤其是被使用者作为意符使用时):
“声音很微妙。它既能给人们带来帮助,也很容易给人带来烦躁情绪和干扰。即使人们的注意力被用在其他地方,也能感知到声音的存在,这是声音的优点之一。但这种优点同时也是一种缺点,因为声音往往具有侵扰性。”
那么,我们如何开始克服音频带来的焦虑,以及在我们进行视频会议时如何提高音质?

最佳视频会议音质是什么?

如本文中已提到的,带宽、压缩和编解码器都对音频质量至关重要。现在,让我们一起深入了解宽带(高清)音频与窄带音频之间的区别。 窄带音频使用“自适应多速率”(AMR) 语音编解码器。从本质上来说,AMR 编解码器在通过实时流式传输进行压缩和传输时只能使用有限的声音频率范围(200 Hz 至 3.4 kHz)AMR 编解码器的比特率会根据带宽情况发生变化(约为 5 至 12 kbps)。当音质较差时,可能是因网络带宽较低引起。为了适应这种情况,AMR 编解码器的比特率会降低。 如今,高速网络更加普及,更高音频质量成为人们关注的焦点:宽带音频是一种专为 VoIP 设计的高清格式。 宽带音频使用“自适应多速率宽带”(AMR-WB) 语音编解码器,频率范围更广(50 Hz 至 7 kHz)这意味着可以拾取并传输音调更高或更低的声音,从而实现更加丰富和稳定的声音质量。 正如前文所说,当网速较低时,视频会议解决方案往往会默认使用窄带音频编解码器。当网速较高时,则有条件使用宽带(高清)编解码器。但这听起来不太合理,对吧?网速真的会对包容性体验产生如此大的影响吗? 基于这一原因,Webex 选择使用 Opus (一种通用性和可扩展性更高的音频编解码器),来为每位与会者提供包容性的语音体验。 即使在比特率较低的情况下,Opus 也能提供出色的音频质量。同时,Opus 还支持宽带和全频段音频编码,其覆盖的频率范围大于人类所能感知的范围(20 Hz 到 20 kHz)。 Opus 可以提高音频质量 我们应该停下来关注一下,Opus 最近是如何帮助解决以人为中心的协作挑战的。 Opus 能够在整个声音频率范围提供清晰的音频体验,从而使 Webex 音乐模式等功能成为可能。在这种音频模式下,声音将根据音乐而非人声进行优化,从而更清晰地保留原声。 由于受到疫情影响,印第安纳波利斯儿童合唱团 (ICC) 暂停了几个月的活动,合唱团的成员无法在一起练习。因此,他们决定使用音乐模式来加强合唱练习。此外,他们还提供反馈,以帮助 Webex 进一步改进此功能。

请观看以下视频,了解在面临前所未有的困难时,音乐模式如何帮助 ICC 重拾热爱与追求梦想:

视频会议音质受到诸多类似可变因素的影响,因此,必须思考其他可能存在的挑战。

让我们深入了解,如何通过硬件在视频会议期间改变用户接收音频的方式以及同事所接收的内容。

硬件在音质中发挥的作用

带电缆的麦克风阵列的图片。

思科麦克风阵列。

基本上,麦克风拾取的声音信号是最为关键的因素。 这是在进行数字化、压缩和解压缩之前的第一个接触点。简单电脑麦克风、外部麦克风或带麦克风阵列的设备都可能会产生回声或刺耳的声音等音频问题。   基于不同的办公方式和办公空间,可以借助不同类型的设备来显著提升您的音频体验,包括接收的内容和接收的方式。我和声学工程师 Patrick Achtelik 谈论到,Webex 硬件和先进音频技术可以在减少噪音的同时,聚焦发言人的声音。 
Patrick 从兰兹角眺望太平洋的图片。

这位是 Patrick。

“波束成形技术本质上使用了几个全向麦克风,”Patrick 解释道。“麦克风本身可以从各个方向均匀拾取声音。”     但是,将更多全向麦克风放在一起时,可以让麦克风更具定向性。因此,这些麦克风可以更有效地拾取更多不同频率的声音。正如 Patrick 所说:   “如果想要定向拾取更多不同频率的声音,需要配备更多麦克风。例如,在 Desk Pro 设备的环形凹槽左侧,有 6 个波束成形麦克风分布在不同距离处的位置,并且间隔不相等。因此,这些麦克风可以使用不同的频率和频段工作。”  
置于家庭办公空间中的 Desk Pro。

这是 Webex Desk Pro。

这种排列方式也意味着设备上方和下方的声音不会被拾取,但麦克风阵列前面的声音(例如您的声音)会得到聚焦和优化。    但这只是其中的一个重要因素。Patrick 表示,通过在软件和硬件之间进行重要的结合,可以有效协助发言人和听众避开回声等有时无法控制的问题: “只有当回音消除 (AEC) 功能完美奏效时,Webex 的全双工模式才能发挥作用。  在发言人一侧的麦克风还会拾取从扬声器中发出的声音。如果没有 AEC 功能,发言人会听到自己的回声。” AEC 功能是视频会议的关键。在考虑双工模式这种允许多名发言人同时发言的技术时,我们想到的是可以一直正常工作的功能,但许多没有考虑到回声和混响的功能的平台会出错。Patrick 强调了距离的重要性:    
“由于扬声器出现失真,会导致回音问题产生。如果将小型笔记本电脑的扬声器音量调高,则很快会出现失真问题。通过增大两者的距离,可以减少扬声器传到麦克风的音量。也可以将麦克风放在靠近用户的位置。这样可以让您的声音听起来更清晰!”
您可以花点时间查看 Patrick “专注音质”的视频博客以了解麦克风和扬声器之间的关系: 

哪些设备最适合于打造最佳音质和召开视频会议?

对于远程和混合办公人员来说,升级耳机是提升音频体验的第一步。为什么? Patrick 解释道: 
 
“内置笔记本电脑麦克风离用户较远,而离笔记本电脑的扬声器较近。在大多数情况下,您的声音可能会听起来很遥远,而由于麦克风靠近扬声器,AEC 功能可能很难发挥作用。头戴式耳机可以阻断扬声器和麦克风之间的声音连接,因为听筒的声音不会传到耳机的麦克风。”
头戴式耳机的设计草图和照片。

思科 730 头戴式耳机从草图到最终产品的整个过程。

荣获红点设计大奖的 思科 730 头戴式耳机可以提高视频会议的音质。这是无吊杆式设计,可为用户带来更加自然的说话体验(用户嘴边无麦克风吊杆)。这款头戴式耳机采用波束成形技术,内部设有 4 个麦克风,形成一个可聚焦发言人声音的音频结构。这款头戴式耳机可以从自适应降噪模式(自动适应嘈杂环境)切换到环境模式,这样,当您更想获得更具协作性的氛围时,可以听到共享办公场所中的对话。  与业内领导者 Bang & Olufson 合作设计的最新款思科头戴式耳机可以提供更多音频功能。6 个麦克风精心放置在几何设计的耳机中,在利用先进算法消除背景噪音的同时,可以更好地隔离您的声音。  
Bang & Olufson 头戴式耳机

Bang & Olufsen Cisco 980 头戴式耳机

即使只简单地将笔记本电脑的麦克风换成头戴式耳机,也能显著改善您的会议体验。 但是,如果您想要重塑视频会议体验,可以考虑全新 Webex Desk Mini 等协作设备。此设备不仅具备上文提到的智能麦克风阵列技术和声音聚焦功能,还 提供清晰的视频体验,并且允许用户通过数字白板功能进行实时共创。 
不同颜色版本的 Webex Desk Pro Minis

Webex Desk Mini

实际上,我们可以将硬件视为音频体验的引擎和改善接收内容和接收方式的发动机。如果是这样的话,我们还可以将软件视为 发动引擎和为其运作过程提供动力燃料。  

哪些软件功能可以提高视频通话音质? 

我们都期待消除背景噪音,但许多人也对此感到畏惧。自从全球转向混合办公模式以来,背景噪音就成为办公人员必须应对的最严峻挑战之一。  但是背景噪音会带来压力,这并不奇怪。视频会议环境是世界各地都能感受到的痛点的缩影。研究表明,从总体上来看,噪音引发的烦躁情绪真实存在并且有害身心健康。因此,我们必须认识到焦虑情绪是由不必要的噪音造成。例如,包裹递送到家时狗叫声。当您在听重要的项目细节时,孩子打断了您;或者当您准备会议上插话时,搅拌机或吸尘器突然启动。  我们希望能在与此截然不同的环境中获得专注的办公体验。为了获得这种体验,我们需要利用相关技术来应对我们有时无法控制的音频问题。技术可以解决这一难题。  2020 年,思科收购了噪音消除软件领域的领军企业 BabbleLabs。借助人工智能和机器学习,他们增强了 Webex 工具中的噪音消除功能,并将一项出色的颠覆性技术带到创新前沿。  机器学习包含许多精细复杂的过程。将经过长期训练的数据用于机器学习算法,以便区分人声和其他声音部署完成后,会在传输和接收特定噪音之前对其进行识别和消除。这也需要大量的人类智慧,特别是在推断哪些噪音最有可能打断和干扰在家办公人员时。  为了更好地了解人工智能如何从音频角度改变用户的 Webex 体验,采访了另外一位专家:Keith Griffin,他是我们首席技术官办公室的人工智能和机器学习杰出工程师
其中 Keith 站在思科徽标壁画旁的图片

这位是 Keith。

“在要求对方重复刚刚所说的内容,或身处嘈杂的环境时,您会感到很糟糕。”Keith 解释道,这是疫情爆发前几年导致产生焦虑情绪的根源。 “以前,人们不会参与线上会议,因为他们对那时所处的环境缺乏信心。”   但是 Webex 所部署的功能致力于应对这些挑战,这些挑战在疫情爆发和全球转向混合办公的过程中进一步加剧了。 “优化我的语音”功能是其中一个典型的案例,这个功能包含 Patrick 强调的关于距离的基本概念。 “看到我们的机器学习/人工智能团队所取得的成就,我感到非常惊喜。”Keith 表示。“团队的成就不仅仅在于消除噪音,还在于通过发展技术来解决其他使用案例,例如‘优化我的语音’。 ‘优化我的语音’功能可根据一些参数来确定当前的发言人。此功能会可聚焦主要发言人,并过滤掉所检测到的其他人声。”  在噪音消除方面,Keith 指出了一些关于机器学习的更有趣细节。为了尽可能覆盖更多基础声音对象,Webex 软件甚至可以识别和消除键盘敲击声、警笛声(软件能够识别不同国家的警笛声)、园林机械和狗叫声等声音。事实上,我们最初设计的噪声检测器可以根据不同的狗叫声识别 100 多种不同品种的狗。  正如 Keith 所说,噪音消除功能不仅仅在于消除背景噪音。此功能的效果极佳,可为用户带来更具包容性和灵活性的协作体验。此外,这也表明团队在参与会议时充满信心。  “在面向思科戈尔韦办事处的现场领导会议中,有多达 14 个员工在不同的时间参与。今天,有 12 人参与通话。其中有三人是在送孩子上学回来的车上。还有四名团队成员在遛狗。”  当考虑音频质量、音频焦虑、视频会议引起的疲劳以及这些因素对团队协作产生的影响时,此类趣闻有着“至关”重要的影响。Keith 表示:
对于有些类型的会议,人们应该能在日常生活中继续进行,并且无论环境如何,都能自信满满地参加会议。 在车上或在散步时, 可能会有狗叫声和汽车经过的声音,,但他们知道我们只会听到他们的声音。这些都有助于开展混合办公和提高音频质量。”
我们在部署 Webex 语音智能方面付出了大量心血,其中包括噪音消除、“优化我的语音”等功能。  结果如何?到目前为止,Webex 已从用户的视频会议中消除 160 亿分钟的背景噪音。 这些音频领域的创新成果为企业和办公人员带来了实实在在的好处。 因此,Aragon Research 再次将 Webex 评为视频会议软件领域的领导者  我们已深入了解各种提高音质的因素(比如高级硬件、软件和强大人工智能),是时候为您提供一些切实可行的建议来帮助您提升音频体验了。 

关于如何提高视频会议音质的建议

建议 #1 观察您最常用于召开视频会议的空间。在一天中的特定时间,有多大可能会受到不必要噪音的干扰?同事对您平时的音频质量的反映如何?借助 Webex,您可以轻松地提前对麦克风进行测试。    建议 #2 深入了解室内声学的基础知识,这样您就可以更轻松地解决日常声音问题。我们的朋友 Patrick 为您提供入门指导:

建议 #3 如非必要,请勿使用电脑麦克风!无论您是喜欢基础型耳机、外部麦克风还是优质思科头戴式耳机,远离电脑麦克风始终是缓解音频焦虑和提高音质的最快方法。  建议 #4 如果您有时间专注于工作,请使用声音的正面作用。打开有利于保持专注的歌曲播放清单,并戴上您的思科头戴式耳机。如果您和团队成员想要实时专注开展重要工作,您可以在 Webex 会议中打开音乐模式。   建议 #5 与团队成员一起测试噪音消除功能,感受一下他们听不到的声音。 通常,当我们听到自己家狗的叫声时,我们会向对方道歉。这时同事会说,为什么要道歉?如果您知道有多少噪音被消除,就能尽量减少注意力分散,因为您知道除了自己没有人会听到这些噪音。  
通过深入了解 Webex 音频和提升音质的产品,帮助团队克服音频焦虑和会议疲劳。
更多相关文章 有助于在家获得优质音频体验的 5 大头戴式耳机功能 让每次通话达到最佳音质 – 3 条帮助实现出色语音质量的建议 Webex 携手 Shure:解决会议室的音频问题    

About The Author

Reilly Nolan
Reilly Nolan Content Writer Cisco
Reilly Nolan is a content writer for Webex.
Learn more

Topics


More like this