Cuando se trata de tener la mejor experiencia de videoconferencia, las personas suelen entusiasmarse con lo visual. Sin duda, Cisco Webex Meetings es uno de los líderes del sector en este sentido, ya que ofrece a los usuarios características progresivas, como vistas, gestos y reacciones personalizables, diseños de vídeo avanzados y participación envolvente. A mí me encantan los fondos divertidos, y me encanta recibir un emoji de pulgar hacia arriba de los participantes en la reunión. Pero hoy quiero hablar de la importancia de lograr un audio excelente en las videoconferencias mediante un habla clara y sin ruidos.
Según Gartner, en 2024 solo el 25% de las reuniones serán presenciales. Dado que la mayoría de las reuniones se realizan a través de soluciones de conferencia, la inteligibilidad del habla no es simplemente agradable, sino que es crucial. El rendimiento de una organización y su capacidad para ofrecer una fuerza laboral diversa y dispersa depende de la capacidad de las personas para entenderse entre sí. Y hablar y oír son fundamentales para comprender.
Desafíos en el desarrollo de una tecnología eficaz de mejora del habla
Entender a los participantes de la reunión mientras se realiza la videoconferencia puede ser un reto cuando se está en una oficina. Es aún peor cuando se trabaja desde una casa ruidosa usando una computadora portátil con una conexión de red limitada cuando el sistema está tratando de enviar flujos de audio a través de complejas redes globales a cientos de colegas.
En el pasado, los algoritmos tuvieron problemas para extraer información útil del habla de una manera que genere una experiencia de audio de videoconferencia clara que alivie la carga cognitiva del ser humano y la carga informática de la electrónica. Tuvieron que lidiar con la cantidad de ruido, el grado de reverberación, la cantidad de interlocutores, el ancho de banda y las limitaciones de latencia. Se enfrentaron a la pérdida de paquetes y a los efectos de la compresión de audio, al tiempo que respetaban la privacidad y la seguridad de los datos de los usuarios.
Además, los ruidos que se encuentran en el habla son tan diversos que los desarrolladores de algoritmos tuvieron dificultades para saber qué audio debe separarse del habla: qué es habla y qué no es habla. Así que se centraron en suprimir los ruidos estacionarios que son constantes en amplitud y frecuencia a lo largo del tiempo, como los ventiladores y los motores. Pero los ruidos más molestos son los transitorios: los ladridos de los perros, los pitidos de las bocinas, el golpeteo de las teclas y el barullo de fondo. Además, muchos entornos, en particular, las oficinas en el hogar que no están diseñadas para la perfección acústica, son muy reverberantes o tienen mucho eco.
Lograr un mejor entendimiento con Cisco Webex Meetings
Hoy en día, los métodos de habla de las redes neuronales están empezando a marcar una gran diferencia en la eficacia con la que podemos resolver estos problemas. Como fundador y director general de BabbleLabs, que fue adquirida por Cisco en octubre de 2020, mi equipo y yo hemos estado trabajando en el desarrollo del mejor sistema de mejora del habla. Ahora estamos implementando nuestros asistentes de audio de IA como parte del equipo de tecnología de voz de Webex. ¿Cómo lo hacemos? En términos muy sencillos, tomamos estructuras de redes neuronales, recopilamos cientos de miles de horas de habla y ruido, decenas de miles de horas de acústica de salas y creamos modelos ajustados con precisión para transformar el habla. Y lo hacemos con una latencia de solo diez milisegundos.
La mejora del habla se ha generalizado recientemente en las videoconferencias. Todos tienen alguna versión, pero no todos obtienen los mismos resultados. Nuestras pruebas sistemáticas demuestran que el algoritmo de mejora del habla de Cisco Webex Meetings es el más eficaz disponible para un uso comercial generalizado. Usamos la misma herramienta de calidad para medir la mayoría de los sistemas de videoconferencia disponibles: el estándar ITU P.862, Evaluación perceptual de la calidad del habla (PESQ), y tres grandes conjuntos de flujos típicos de ruido y reverberación, uno de ellos desarrollado por Cisco y dos por Microsoft. En todas las pruebas, Webex eliminó más ruido y reverberación, y obtuvo una puntuación significativamente superior a las versiones recientes de Zoom (5.4.1) y Microsoft Teams (1.4.00.4167).
Desde el primer lanzamiento público de esta tecnología de mejora del habla hace dos años, y con el creciente compromiso de recursos de Cisco, hemos mejorado la calidad del habla más de dos veces y hemos reducido los requisitos informáticos para ejecutar estos modelos cuatrocientas veces más rápido.
¿Cuáles son las próximas novedades de la tecnología de voz de Cisco Webex Meetings?
Seguimos ampliando los límites para conseguir mayores niveles de rendimiento y reducir aún más la carga informática a fin de lograr una implantación ubicua y sin complicaciones. Podemos entender quiénes son los hablantes y dónde están, así como eliminar el ruido de fondo que distrae de su entorno mientras amplificamos su habla.
La IA nos ofrece herramientas nuevas y potentes para extraer más información y comunicar con menos esfuerzo. Pronto lanzaremos nuevas características inteligentes que marcarán una diferencia aún mayor en la comprensión, que incluyen las siguientes:
- Mejora del habla que permite distinguir a los oradores inteligibles en las salas de conferencias: extracción precisa de los hablantes que están cerca del micrófono frente a los que están lejos, por lo que tenemos la capacidad de suprimir o potenciar el habla según sea necesario.
- Nuevas funcionalidades de mejora del habla para dispositivos inteligentes: nuevas implementaciones y características para aprovechar la potencia de las computadoras portátiles, los dispositivos y los teléfonos de última generación.
- Reconocimiento de comandos mediante algoritmos únicos de mejora del habla: para complementar el asistente de voz de vocabulario extenso y las tecnologías de transcripción de Webex y aportar a los nuevos comandos una ejecución eficiente en la frontera, una alta precisión y una fácil configuración.
Vivimos en un mundo ruidoso, pero esto no debe frenar la productividad. La mejora del habla lleva más de siete meses en implementaciones de volumen en los productos de Cisco Webex Meetings. Y hace mucho más que eliminar el ruido: mejora el habla y la comprensión al tiempo que mantiene el compromiso fundamental de Cisco con la privacidad, la seguridad y la equidad.
¿Quiere escuchar nuestra tecnología de mejora del habla en acción y obtener más información sobre los algoritmos de mejora del habla de Cisco Webex Meetings?
Vea mi charla en vivo de Cisco BabbleLabs: asistente de audio de IA ahora disponible para los titulares del pase Cisco Live All Access y para el público en general que se registre para obtener una cuenta de Cisco Live a principios del verano.
Más información
El desarrollo de la mejora del habla con IA y una mejor colaboración en equipo