El sonido importa: El rol de la calidad del audio en las videoconferencias

On By Reilly Nolan19 Min Read
Man with headset listening to audio with smartphone_ccexpress
Si hay algo que sabemos sobre el trabajo híbrido es esto: los desafíos evolucionan a la par del lugar de trabajo digital. Y para los trabajadores que realizan videoconferencias constantemente, sabemos que la fatiga de las reuniones está en su punto más alto. Pero esa fatiga no es solo por estar frente a la cámara. Al igual que el iceberg metafórico cuya punta oculta una estructura masiva debajo, la fatiga de las videoconferencias es solo una parte de la fatiga general que sentimos como trabajadores híbridos y remotos. ¿Qué conforma este iceberg de ansiedad? Para mucha gente, se trata únicamente del sonido.

¿Qué es la calidad del sonido?

¿Puede recordar algún momento en que el sonido lo hechizó por completo? Un largo viaje por una carretera tranquila con la música a todo volumen. Estar cara a cara con el rugido del océano en la playa durante un frío invierno. Ese show en vivo en un bar abarrotado donde el sonido estaba más fuerte de lo necesario, pero a nadie le importaba. El momento en que los cuernos braman para anunciar el texto de introducción épico de cierta franquicia cinematográfica, desplazándose hacia abajo a través de una galaxia muy, muy lejana. Experimentamos el sonido subjetivamente, en formas que pueden calmarnos e incluso irritarnos. La música de ambiente que relaja a una persona puede estar prohibida en la lista de reproducción del trabajo de otra. Algunos necesitan un podcast de fondo para completar tareas mundanas, pero otros no pueden seguirlo si están muy concentrados en el trabajo. Todos estos ejemplos asumen una cosa: que el audio es nítido y sin interrupciones. Y en la era digital, donde la compresión y la transmisión del sonido son increíblemente sofisticadas, esta experiencia de audio no es un lujo: es un punto de referencia de lo que el sonido debería ser. Entonces, ¿qué distingue a esta exuberante experiencia de sonido que todos esperan o incluso anhelan? Tomemos un momento para cubrir algunos conceptos básicos. Ondas sonoras El sonido viaja en ondas, causadas por vibraciones que varían en frecuencia. Estas frecuencias se miden en hercios (Hz) y las percibimos en términos de tono. El habla humana puede oscilar entre 80 Hz y 14 kHz (kilohercios). Nuestros oídos escuchan tonos que van de 20 Hz a 20 kHz. Las frecuencias más bajas implican tonos más bajos, como un motor de combustión interna encendido, un ritmo de bajo funk o un cantante barítono. Las ondas de mayor frecuencia implican un sonido con tono más alto, como los dientes de un tenedor golpeando vidrio o una melodía silbada. Sin embargo, cuando transmitimos sonido, las cosas se complican un poco más. Comienza con un transmisor de radio, que genera una señal eléctrica que contiene información de audio. A continuación, una antena amplifica la señal, que se transmite mediante ondas de radio a un receptor de radio. Luego, el receptor extrae la información y la envía a un dispositivo (altavoz, pantalla de visualización, etc.). A principios del siglo XX, estos componentes estaban separados y eran gigantes, y conectaban los rascacielos de la ciudad con vecindarios distantes; una hazaña milagrosa que unió a todo el mundo al brindar una experiencia compartida. ¿Avanzamos rápidamente a la actualidad? Cada teléfono inteligente contiene esta tecnología. El sonido se descompone, digitaliza y transmite en tiempo real, en todo el planeta, desde cualquier dispositivo que se conecte a Internet. En términos de videoconferencias, la mayoría del audio de los participantes ahora se transmite a través de VoIP (protocolo de voz por Internet). Básicamente, el audio se envía a través de Internet en lugar de una red celular. La calidad del audio para las videoconferencias en VoIP depende más de la velocidad de Internet de una persona que, por ejemplo, la proximidad de la torre celular para una llamada telefónica tradicional. La calidad del sonido depende de muchas variables, pero estos 4 aspectos son clave:
  1. Tasa de muestreo. La cantidad de muestras digitales tomadas por segundo del audio analógico original. Por lo general, una tasa de muestreo más alta implica un audio de mayor calidad, expresado en kHz (a menudo 8 o 16 kHz para telefonía estándar y 44,1 kHz para transmisión de audio).
  2. Tasa de bits . Esto se refiere a la cantidad de datos que contiene un archivo de audio digital. La tasa de bits se mide en kilobits por segundo (kbps). Al igual que la frecuencia de muestreo, una tasa de bits más alta suele indicar una mejor calidad de audio.
  3. Códecs de audio. Algoritmos que comprimen y descomprimen audio digital. Durante décadas, el códec de banda estrecha G.711 (esta frase puede leerse con la voz de C-3P0) fue el estándar para la telefonía. Pero ahora hemos entrado en una era en la que los códecs HD como G.722 (el mismo) y otros cumplen con los estándares del ancho de banda y brindan audio de mayor calidad.
  4. Ancho de banda . Al fin y al cabo, su ancho de banda es quizás la pieza más crítica para la calidad de audio en llamadas con VoIP y videoconferencias. La mayoría de las plataformas utilizarán de forma predeterminada un códec de audio de banda estrecha si su velocidad de carga es baja. Con una velocidad de Internet más rápida, hay códecs de banda ancha y banda completa disponibles, que brindan audio de alta definición.
Tómese un momento para considerar cómo una videoconferencia puede complicar estas variables. Incluso con unos pocos participantes se agregan capas de posibles problemas de audio: algunos usan una red celular a través de su teléfono inteligente, otros usan computadoras portátiles u otros dispositivos, todos con diferentes velocidades y proveedores de Internet.

¿Por qué la calidad del sonido es importante para las videoconferencias?

Nos acercamos a los dos años desde que la COVID-19 cambió repentinamente nuestro mundo y el paradigma del trabajo. Es importante observar cómo el cambio global hacia el trabajo híbrido y remoto ha afectado a los trabajadores, dada la frecuencia con la que hablamos y colaboramos por vídeo. A medida que surgen más investigaciones y análisis, vemos que el agotamiento por las videoconferencias va en aumento. Sabemos que casi la mitad de los trabajadores reportan sentirse aislados cuando trabajan de forma remota, y que el 61 % afirmó que la fatiga por las reuniones en video ha aumentado. Lo que quizás es aún más preocupante: El 90 % de los encuestados sufre problemas de colaboración cuando trabaja desde casa. Cuando se trata del sonido, los problemas potenciales son fáciles de identificar:
  • El ancho de banda extendido puede hacer que la calidad de audio se vea perjudicada. ¡Piense en la ansiedad instantánea cuando un colega le dice que su audio se está cortando!
  • El sonido resonante también puede detener las reuniones y hace que la experiencia de audio sea insoportable para todos.
  • La diafonía presenta un desafío para aquellos que son más reticentes a hablar, un problema evidente para las empresas enfocadas en crear experiencias inclusivas.
  • El ruido de fondo constante y sin abordar puede detener a un orador, distraer al oyente y socavar por completo la reunión.
Con el tiempo, estos problemas pueden convertirse en ansiedades a largo plazo y de mayor escala sobre la colaboración virtual. Si continuamente experimentamos problemas con el rendimiento del audio, querremos colaborar cada vez menos. Esa es realmente la clave, y algo que damos por sentado. El sonido es un aspecto primordial y central de nuestra experiencia diaria, ya sea que estemos colaborando o simplemente percibiendo el mundo. Las investigaciones muestran que el sonido en ciertos contextos puede aliviar mucho el estrés. Por el contrario, existen estudios que también han revelado que el sonido puede causar ansiedad e incluso depresión. En The Design of Everyday Things , Don Norman señala la naturaleza dual del sonido en el contexto del diseño de productos, específicamente como significante para los usuarios:
“El sonido es complicado. Puede molestar y distraer tan fácilmente como puede ayudar. Una de las virtudes de los sonidos es que pueden detectarse incluso cuando se presta atención a otra cosa. Pero esta virtud también es una desventaja, ya que los sonidos a menudo son intrusivos”.
Entonces, ¿cómo comenzamos a superar la ansiedad por el audio y qué implica exactamente una mejor calidad de sonido cuando realizamos una videoconferencia?

¿Cuál es la mejor calidad de sonido para videoconferencias?

Como hemos señalado en este artículo, el ancho de banda, la compresión y los códecs son cruciales para la calidad del audio. Entonces, profundicemos un poco más en la diferencia entre el audio de banda ancha (alta definición) y el de banda estrecha. El audio de banda estrecha utiliza un códec de voz adaptativo de velocidad múltiple (AMR). En esencia, los códecs AMR utilizan un rango de frecuencia de sonido limitado al comprimir y transmitir en vivo (200 Hz a 3,4 kHz). El códec AMR también presenta una tasa de bits variable que cambia según el ancho de banda (alrededor de 5 a 12 kbps). En los casos en que la calidad del sonido sea deficiente, es probable que se deba a problemas relacionados con el bajo ancho de banda: el códec AMR se mueve a una tasa de bits más baja para adaptarse. A medida que la Internet de alta velocidad se vuelve más accesible, el sonido de mayor calidad ocupa un lugar central: audio de banda ancha, un formato de alta definición diseñado específicamente para VoIP. La banda ancha utiliza códecs de voz de banda ancha adaptativa de velocidad múltiple (AMR-WB), que proporcionan un rango de frecuencia más amplio (50 Hz a 7 kHz). Esto significa que los sonidos de tonos más altos y más bajos se captan y transmiten, lo que proporciona una calidad de sonido mucho más rica y sólida. Como mencionamos anteriormente, las velocidades de Internet más bajas tienden a hacer que las soluciones de videoconferencia tengan un códec de audio de banda estrecha predeterminado. Las velocidades más rápidas abren la posibilidad de utilizar códecs de banda ancha (alta definición). Pero eso suena un poco antidemocrático, ¿verdad? ¿Debería realmente la velocidad de Internet dictar la inclusión a ese nivel? Es por eso que Webex utiliza Opus (un códec de audio escalable y más versátil) a fin de mantener una experiencia de audio inclusiva para cada participante. Opus puede proporcionar una gran calidad de audio incluso a velocidades de bits más bajas. También puede esforzarse para el audio de banda ancha y de banda completa, que cubre una mayor parte del espectro de sonido de lo que los humanos pueden percibir (20 Hz a 20 kHz). Opus puede proporcionar una gran calidad de audio Es necesario destacar cómo la flexibilidad de Opus ayudó recientemente a resolver un desafío de colaboración orientada a las personas. La capacidad de Opus para proporcionar audio nítido en todo el espectro de frecuencias de sonido hace que las características como el modo de música de Webex sean posibles. En este modo de audio, el sonido se optimiza para la música en lugar del habla humana, lo que conserva el sonido original con mucha más claridad. Los integrantes del Coro de Niños de Indianápolis (ICC) estuvieron separados y no pudieron practicar juntos durante meses debido a la pandemia. Decidieron usar el modo de música para aumentar la práctica del coro. También proporcionaron comentarios para ayudar a Webex a mejorar aún más la función.

Mire este vídeo para ver cómo el modo de música empodera al ICC para regresar y continuar con su pasión frente a obstáculos sin precedentes:

Con tantas piezas superpuestas y en movimiento que afectan el sonido de las videoconferencias, es importante considerar otros desafíos potenciales.

Exploremos cómo el hardware puede transformar la forma en que escucha y lo que escuchan sus colegas durante las videoconferencias.

La función del hardware en la calidad del sonido

Imagen de una matriz de micrófonos con cable.

La matriz de micrófonos de Cisco.

En un nivel muy básico, la señal acústica que capta su micrófono lo es todo. Este es el primer punto de contacto antes de la digitalización, compresión y descompresión. Un micrófono de computadora simple, un micrófono externo, un dispositivo con una matriz de micrófonos… todos pueden afectar al audio de forma específica, como el sonido resonante o metálico.  Según el estilo y el espacio de trabajo, diferentes tipos de dispositivos pueden optimizar la experiencia de audio de manera espectacular, tanto lo que escucha como la forma en que lo escuchan. Conversé con nuestro Ingeniero Acústico, Patrick Achtelik , sobre el hardware de Webex y la tecnología de audio avanzada que se concentra en la voz del orador y, al mismo tiempo, reduce el ruido no deseado. 
Imagen de Patrick contemplando el Océano Pacífico desde Land's End.

Este es Patrick.

«En esencia, la formación de haces usa varios micrófonos que son omnidireccionales», explicó Patrick. «El micrófono en sí capta el sonido por igual desde todas las direcciones».     Sin embargo, a medida que se colocan más micrófonos omnidireccionales juntos, uno puede hacerlos más directivos. Como resultado, los micrófonos son más efectivos para más frecuencias de sonido. Como señala Patrick:   “Para obtener directividad en un rango de frecuencia más amplio, se necesitan más micrófonos. Por ejemplo, en Desk Pro , a la izquierda del marco hay 6 micrófonos de formación de haces repartidos a diferentes distancias, pero no espaciados por igual. Esto permite que los micrófonos funcionen en diferentes frecuencias y en diferentes bandas de frecuencia”.  
Desk Pro en un espacio de trabajo doméstico.

Esto es Webex Desk Pro.

Esta alineación también significa que los sonidos por encima y por debajo del dispositivo no se captan, mientras que los sonidos que se encuentran frente a la matriz de micrófonos, como su voz, se enfocan y optimizan.    Pero esa es solo una pieza del rompecabezas. Patrick describió una unión importante entre el software y el hardware que tiene un gran impacto en la forma en que los oradores y los oyentes evitan problemas como el eco, que a veces pueden sentirse fuera de nuestro control: “La cancelación de eco acústico (AEC) debe funcionar perfectamente para que funcione el dúplex completo de Webex. El micrófono del lado de una persona también capta el sonido del altavoz. Sin AEC, nos escucharíamos a nosotros mismos haciendo eco”. La funcionalidad AEC es clave para las videoconferencias. Cuando pensamos en dúplex completo, una tecnología que permite que varios oradores hablen a la vez, pensamos en algo que debería funcionar todo el tiempo, pero muchas plataformas fallan por no tener características que tomen en cuenta el eco y la resonancia. Patrick dejó en claro cuánto importa la distancia:   
“Escuchar un eco puede comenzar con distorsión en el altavoz. Si se sube el volumen en los diminutos parlantes de las computadoras portátiles, estos se distorsionan bastante rápido. La distancia física puede reducir la cantidad de sonido que pasa del altavoz al micrófono, pero también puede colocar el micrófono más cerca del usuario. Esto hace que la voz sea más clara”.
Tómese un momento para ver la relación entre micrófonos y altavoces aquí, en el vlog Focus on Sound de Patrick: 

¿Qué dispositivos son mejores para la calidad del sonido y las videoconferencias?

Para trabajadores remotos e híbridos, el cambio de auriculares puede ser un gran primer paso para mejorar el audio. ¿Por qué? Patrick lo explicó de esta manera:  
 
«Los micrófonos incorporados en las computadoras portátiles están relativamente lejos del usuario y cerca de los altavoces. En mayor parte, su voz puede sentirse alejada y la AEC puede verse comprometida por la proximidad a los altavoces. Los auriculares interrumpen la conexión acústica entre el altavoz y el micrófono, ya que el sonido de los auriculares no llega a su micrófono».
Bocetos y fotografías del diseño de los auriculares.

El recorrido de los auriculares Cisco 730, desde el boceto hasta el producto final.

Los auriculares Cisco 730, ganadores del premio Red Dot , ayudan a cristalizar el sonido de las videoconferencias. El diseño no tiene el micrófono en una extensión para una experiencia de habla más natural (no más estruendos de micrófono frente a su boca). Cuenta con tecnología de formación de haces, con una matriz de 4 micrófonos incorporados en los auriculares para formar una especie de burbuja de audio centrada en la voz. Estos auriculares pueden pasar de la cancelación de ruido adaptativa (que se ajusta automáticamente a entornos ruidosos) al modo ambiental, para poder escuchar conversaciones en un espacio de trabajo compartido al estar en un ambiente más colaborativo.  Los últimos auriculares Cisco , diseñados en colaboración con el líder de la industria Bang & Olufson, ofrecen aún más características de audio. Los micrófonos (6) están cuidadosamente colocados en un diseño geométrico a fin de aislar mejor la voz al utilizar algoritmos avanzados para cancelar el ruido de fondo. 
Auriculares Bang & Olufson

Auriculares Bang & Olufson Cisco 980

Incluso un simple cambio de micrófono de computadora portátil a auriculares transformará la experiencia de las reuniones.  Pero si considera una revisión de su experiencia de videoconferencias, los dispositivos de colaboración como el nuevo Webex Desk Mini podrían ser la respuesta. Con la tecnología de matriz de micrófonos inteligentes y la captación de sonido enfocada ya analizada, este dispositivo también proporciona vídeo de alta definición y le permite crear colaborativamente en tiempo real con una pizarra digital.  
Webex Desk Pro Minis ordenados por color

El Webex Desk Mini

En esencia, podemos pensar en el hardware como el núcleo de nuestra experiencia de audio, el motor que impulsa lo que escuchamos y cómo nos escuchan. Si ese es el caso, podemos pensar en el software como el combustible que  enciende e l motor y potencia su  rendimiento.  

¿Qué características del software mejoran el sonido en las videollamadas? 

Ya todos lo esperamos, y muchos de nosotros lo detestamos: el odioso ruido de fondo. Desde que el mundo pasó al trabajo híbrido , se ha convertido en uno de los desafíos más difíciles a los que se han tenido que enfrentar los trabajadores.  Pero no debería sorprender que el ruido de fondo provoque estrés. El entorno de las videoconferencias es un microcosmos de preocupaciones en todo el mundo. Las investigaciones muestran que la molestia del ruido en general es real y dañina . Y es crucial comprender que la causa de la ansiedad se debe específicamente a un sonido no deseado. Cuando un perro ladra por la entrega de un paquete. Cuando un niño interrumpe mientras escucha los detalles importantes del proyecto, o una licuadora o una aspiradora se encienden justo cuando está listo para hablar.  Queremos una experiencia de trabajo concentrada en un entorno que, a menudo, es todo lo contrario. Para obtener esa experiencia, necesitamos tecnología para combatir los desafíos de audio que a veces están fuera de nuestro control. Y la tecnología está a la altura.  En 2020, Cisco adquirió BabbleLabs, líder en software de eliminación de ruido. Mediante el uso de inteligencia artificial y aprendizaje automático, mejoraron la eliminación de ruido en la herramienta Webex y pusieron en primer plano una tecnología sorprendente que cambia las reglas del juego.  El aprendizaje automático encapsula muchos procesos granulares y complejos. Se utilizan innumerables horas de entrenamiento de datos para permitir que los algoritmos de aprendizaje automático diferencien el habla humana del sonido. Cuando se implementa, los ruidos específicos se identifican y eliminan antes de que se transmitan y escuchen. Esto también requiere mucho ingenio humano, específicamente para deducir qué ruidos tienen más probabilidades de interrumpir y distraer a las personas que trabajan desde casa.  Para comprender mejor cómo la inteligencia artificial ha transformado la experiencia de Webex desde una perspectiva de audio, hablé con otro experto : Keith Griffin , ingeniero distinguido en inteligencia artificial y aprendizaje automático en nuestra oficina de dirección de tecnología.
Imagen de Keith de pie junto a un mural del logotipo de Cisco

Este es Keith.

“Pedirle a la gente que repita lo que dice o estar en un ambiente ruidoso te hace sentir mal”. Esta ya era una causa de ansiedad en los años previos a la pandemia, explicó Keith. “En el pasado, las personas no se unían porque no confiaban en el entorno en el que se encontraban”.   Pero las características implementadas por Webex han buscado abordar estos desafíos, que se han intensificado por la pandemia y el cambio al trabajo híbrido. Un buen ejemplo es la función Optimizar mi voz, que incorpora el concepto fundamental de distancia que destacó Patrick. «Estoy sorprendido de ver lo que nuestros equipos de aprendizaje automático e inteligencia artificial han logrado», dijo Keith. “No solo con la eliminación de ruido, sino también con la forma en que están desarrollando la tecnología para resolver otros casos de uso, como la función Optimizar mi voz. Lo que hace esta característica es determinar quién es el orador activo en función de una serie de parámetros. Selecciona al orador principal y cualquier otra voz humana detectada simplemente se filtra».  Cuando se trata de la eliminación de ruido, Keith destaca algunos de los detalles más intrigantes del aprendizaje automático. Para abarcar tanto terreno como sea posible, el software de Webex puede identificar y eliminar sonidos como pulsaciones de teclado, sirenas (el software es capaz de reconocer sonidos de sirenas de diferentes países), maquinaria de jardinería y ladridos de perros. De hecho, nuestro diseño original del detector de ruido podría identificar más de 100 razas diferentes de perros por su ladrido distintivo.  Como describió Keith, la eliminación de ruido es algo más que simplemente eliminar el ruido de fondo. Es tan efectivo que permite una colaboración más inclusiva y flexible. Y eso significa que los equipos participan con confianza durante la experiencia de la reunión.  “La reunión de liderazgo de mi sitio para Cisco Galway tiene hasta 14 personas en diferentes momentos. Hoy había 12 en la llamada. Tres estaban en el automóvil después de dejar a sus hijos en la escuela. Cuatro de los miembros del equipo estaban paseando a sus perros”.  Esta anécdota es *súper* importante en términos de cómo pensamos en la calidad del audio, la ansiedad del audio, la fatiga de las videoconferencias y cómo cada uno afecta la colaboración en equipo. Keith afirmó:
Existen tipos de reuniones en las que las personas deberían poder continuar con su vida cotidiana y sentirse seguras de unirse a una reunión sin importar el entorno.   D esde el automóvil o de paseo,   p uede haber perros ladrando y autos pasando , pero saben que lo único que vamos a escuchar es su voz. Es exactamente lo que ayuda con el trabajo híbrido y la calidad del audio”.
Ha sido enorme la cantidad de trabajo realizado para implementar Webex Audio Intelligence, que abarca la eliminación de ruido, la función Optimizar mi voz y más. ¿Los resultados? A la fecha, Webex ha eliminado 16 mil millones de minutos de ruido de fondo en las videoconferencias de nuestros usuarios.  Estas innovaciones en el mundo del audio se traducen en beneficios reales y tangibles para los trabajadores y las organizaciones. Es por eso que Aragon Research ha vuelto a identificar a Webex como líder en software de videoconferencias .  Ahora que hemos explorado aquello que hace que la calidad del sonido sea mejor (hardware de vanguardia, software avanzado y una poderosa inteligencia artificial), es hora de brindar algunos consejos prácticos para mejorar la experiencia de audio. 

Consejos para mejorar la calidad del sonido de las videoconferencias

Consejo n.º 1 Hacer un balance de los espacios más frecuentes donde se realizan las videoconferencias. ¿Qué tan probable es que los ruidos no deseados interrumpan en un momento dado del día? ¿Cómo suele sonar ante sus colegas? Webex hace que probar el micrófono de antemano sea una tarea fácil    Consejo n.º 2 Sumergirse en los conceptos básicos de la acústica para sentirse más cómodo al resolver problemas de sonido cotidianos. Nuestro amigo Patrick puede ayudarlo a comenzar:

Consejo n.º 3 ¡No usar el micrófono de la computadora si no es necesario! Ya sea que prefiera auriculares básicos, un micrófono externo o la calidad superior de un auricular Cisco, alejarse del micrófono de la computadora es la forma más rápida de aliviar la ansiedad por el audio y mejorar la calidad del sonido.  Consejo n.º 4 Cuando se trata de trabajo que requiere concentración, utilizar la naturaleza positiva del sonido. Suba el volumen de su lista de reproducción para concentrarse y use los auriculares Cisco. O active el modo de música en su reunión de Webex si usted y su equipo desean trabajar juntos y concentrados en tiempo real.   Consejo n.º 5 Probar la eliminación de ruido con compañeros de equipo para tener una idea de lo que no pueden escuchar. A menudo, escuchamos a nuestro perro ladrar y pedimos disculpas. Nuestros colegas dirán que no es necesario disculparse. A medida que comprenda cuánto ruido se elimina, comenzará a distraerse menos porque sabrá que nadie lo está escuchando excepto usted. 
Ayude a su equipo a superar la ansiedad por el audio y la fatiga de las reuniones al explorar el audio de Webex y los productos que lo hacen superior.
Obtener más información Las 5 características principales de los auriculares para disfrutar de un audio de calidad en el hogar Sonar genial en cada llamada: 3 consejos para un audio excelente Webex + Shure: resolver la ecuación de audio para la sala de reuniones    

About The Author

Reilly Nolan
Reilly Nolan Content Writer Cisco
Reilly Nolan is a content writer for Webex.
Learn more

Topics


More like this