Cómo nuestra búsqueda de una IA de audio y vídeo inclusiva está impulsando el futuro de la colaboración

On By Chris Rowen8 Min Read
Person working from their laptop at a coffee shop
Webex está innovando continuamente en la experiencia de trabajo híbrida. Nuestro equipo está aprovechando la inteligencia artificial y los métodos de aprendizaje profundo para ofrecer una experiencia de colaboración excepcional, lo que mejora la experiencia de audio y vídeo, la traducción y la transcripción, y expande la asistencia automatizada. Nuestro enfoque de la inteligencia artificial ayuda a que los usuarios se sientan vistos, escuchados y valorados, independientemente de que participen desde el hogar, desde la oficina o sobre la marcha. Diseñamos nuestra plataforma de IA con el objetivo de ofrecer un enfoque inclusivo de la colaboración, que permita la participación de personas de todo el mundo, independientemente del idioma, el género o la edad. Puede leer sobre este enfoque en nuestro marco de IA responsable de Cisco, publicado recientemente, en el que se especifican las medidas de gobierno, proceso y educación que aplicamos para reducir o eliminar los sesgos que pueden surgir de los algoritmos o conjuntos de datos. Webex se encuentra en una posición única para ofrecer una experiencia de colaboración integrada y segura en nuestros dispositivos, computadoras de escritorio, computadoras portátiles, teléfonos inteligentes y formatos de dispositivos emergentes. Nuestra visión es proporcionar una experiencia que sea tan buena como estar en persona, o mejor. Nuestro enfoque de la IA ofrece una mayor comprensión, reduce la fatiga y mejora la facilidad de uso. Nos centramos en utilizar la IA para aumentar la claridad de la comunicación entre los participantes y ser más adaptables a sus necesidades individuales. En Webex, diseñamos nuestras funciones de IA de forma que se considere la colaboración como un todo integral en lugar de los típicos silos tecnológicos relacionados con la IA.

Diseñado para entornos de trabajo híbridos y complejos

Nuestro objetivo es aplicar la inteligencia del aprendizaje automático al audio, el vídeo y el lenguaje natural de forma que aumente la adaptabilidad del usuario final y prospere en entornos de trabajo híbridos y complejos.

Ofrece un enfoque inclusivo de la colaboración

Nuestros modelos de aprendizaje automáticos están entrenados con conjuntos de datos grandes y diversos para reconocer una amplia variedad de idiomas y acentos para el habla y la demografía para la visión por computadora.

Creado con la privacidad y la seguridad como base

Nuestra arquitectura de tecnología ofrece de manera inherente un enfoque privado y seguro para el cómputo de aprendizaje automático mediante el procesamiento principalmente en las computadoras portátiles y los dispositivos del usuario final en lugar de transmitirlo a la nube. Este enfoque de computación de borde para la tecnología de IA mejora inherentemente la seguridad de los activos y datos de los medios. El enfoque de Webex para el desarrollo de IA se basa en los Principios de confianza de datos de Cisco.

Una experiencia de colaboración de baja latencia

El enfoque centrado en el borde también ofrece una experiencia receptiva porque los medios se pueden procesar en decenas de milisegundos, mientras que los viajes de ida y vuelta a través de la nube introducen una latencia muy variable. Además, nuestros algoritmos están diseñados de manera que pueden escalar a diferentes tipos de procesadores, presupuestos de energía y sistemas operativos, lo que garantiza una experiencia de trabajo desde cualquier lugar.

Optimiza la experiencia de colaboración en dispositivos Webex

Las tecnologías de IA de Webex funcionan en segundo plano para producir una mejor experiencia general y se integran directamente en los teléfonos de escritorio, escritorios y dispositivos de sala de conferencia de Webex.

Ofrece oportunidades para la innovación continua

La arquitectura de IA integral y centrada en la colaboración de Webex enriquece la experiencia de los medios y abre nuevas oportunidades para adaptarse rápidamente a nuevos casos de uso y dominios específicos del cliente.

Enfoque de Webex basado en la IA para el análisis y la reconstrucción de flujos de medios

análisis y reconstrucción de flujos de medios

Figura 1: Modelo de procesamiento de audio impulsado por la IA de Webex

Los clientes de Webex confían en nuestra cartera para colaborar desde cualquier lugar. Nuestro enfoque consiste en identificar las características de los participantes independientemente de sus entornos y, a continuación, aprovechar la IA y el aprendizaje automático para separar el audio o el vídeo entrante en flujos ricos en datos segmentados. Este nivel de extracción detallada de flujos de componentes significativos no era posible hasta ahora en un software de comunicaciones en tiempo real ampliamente implementado.

1. Descomposición impulsada por aprendizaje automático

La descomposición separa un flujo de audio entrante que incluye lo siguiente:
  • Los oradores en primer y segundo plano se identifican estimando la distancia a la que se encuentra un orador del micrófono en función del nivel del habla y la reverberación del habla.
  • Los eventos de audio se detectan, incluidos los disparadores de sonido específicos o palabras clave.
  • La reverberación, el eco sutil de una voz en una sala, se separa y puede ajustarse para aclarar la voz del participante.
  • La música de fondo se separa en su propio flujo, lo que permite ajustar el volumen en la etapa de recomposición.
  • El ruido de fondo está separado y puede incluir elementos ambientales que pueden ajustarse en función del caso de uso.

2. Componentes de audio por usuario

Una vez separados los flujos de datos, los agregamos en componentes de audio por usuario, lo que nos permite seleccionar, modificar o realizar acciones individualmente en el flujo de audio de cada participante.

3. Reconstrucción impulsada por aprendizaje automático

En función del caso de uso, podemos combinar flujos de datos individuales en el audio compartido con otros. Este enfoque nos permite atender varios casos de uso y requisitos. Por ejemplo, la característica de audio inteligente de Webex permite a los participantes seleccionar si quieren eliminar todo el ruido de fondo (Eliminación de ruido), eliminar todo el ruido de fondo y la voz de fondo (Optimizar para mi voz) o escuchar el sonido original cuando se toca un instrumento o se canta (Modo música).

4. Audio renderizado

El flujo de audio resultante se transmite a los demás participantes de una manera que es más fácil de comprender con menos esfuerzo mental.

La ventaja computacional permite nuevos casos de uso

Dado que nuestra arquitectura de IA se centra en la colaboración, podemos separar los medios en un solo ciclo computacional en lugar de procesar el flujo de medios varias veces a través de diferentes modelos. Este enfoque aumenta la eficiencia general del proceso y ofrece una experiencia de baja latencia. También podemos añadir fácilmente nuevos componentes al ciclo computacional del flujo, lo que permite nuevos escenarios de uso con una imagen más rica del flujo de entrada. El enfoque de procesamiento de flujos de medios de Webex se expande a lo siguiente:

El reconocimiento de voz mejora la comprensión

Podemos distinguir a los hablantes del ruido, a los que están más cerca o más lejos del micrófono e incluso ajustar la reverberación de la sala. Todos estos elementos se identifican como flujos separados, lo que permite una mayor flexibilidad para atender una necesidad específica del usuario. Podemos seleccionar, modificar y realizar acciones individualmente sobre estos flujos y reconstruir nuevos flujos de audio a partir de los componentes de audio seleccionados. Por ejemplo, en una llamada, podemos querer igualar el volumen de los hablantes en primer o segundo plano, y en otras, tal vez solo queramos destacar al orador más cercano al micrófono. También podemos reconocer activadores de eventos de audio como “OK Webex” o resaltar otro audio ambiental que pueda ser importante para un participante.

La visión artificial expande la potencia de los flujos de vídeo

Nuestro enfoque de flujo de medios nos permite tener una mejor comprensión de la escena de vídeo y recomponer elementos para mejorar la calidad del vídeo. Por ejemplo, podemos distinguir a un participante de su fondo y de los gestos que está utilizando. Podemos renderizar el vídeo seleccionando y modificando estos flujos separados para maximizar la visión del presentador por parte de los demás participantes, con distracciones mínimas. Este enfoque abre un mundo de posibilidades y facilita la colaboración de los participantes incluso desde entornos difíciles.

Webex Assistant mejora la experiencia de colaboración

Webex Assistant proporciona controles de voz para la experiencia de colaboración, inteligencia proactiva, transcripción y servicios de traducción. Implementamos esto de forma que procesamos más el reconocimiento de idiomas en el dispositivo, lo que aumenta la precisión y reduce la latencia hasta cuatro veces en comparación con los sistemas estándar basados en la nube. Webex Assistant también ofrece API con habilidades de Webex Assistant para que los desarrolladores de terceros puedan añadir nuevas funcionalidades y conectarse a sus aplicaciones con controles de voz. Ampliamos el número de idiomas admitidos para la transcripción, las traducciones e incluso añadimos idiomas adicionales para los dispositivos, como el inglés (actual), el alemán, el francés, el español y el japonés.

La visión artificial abre las fronteras del 3D

La visión por computadora permite identificar el entorno espacial en un flujo de vídeo. El enfoque de Webex sobre el 3D se centra en reducir la carga cognitiva de los presentadores y los participantes en lugar de requerir auriculares de RA/RV para incorporarlos en un espacio de realidad totalmente virtual. Por ejemplo, podemos extraer modelos 3D precisos y adaptarlos. También podemos escanear la geometría facial de los participantes para permitir la mejora y personalización de la imagen. El enfoque de Webex hacia la IA permite a los equipos colaborar con mayor flexibilidad y expande la forma en la que las personas pueden participar en las reuniones. El sólido modelo de procesamiento de flujos de medios impulsado por la IA ofrece hoy una experiencia de colaboración de primer nivel y abre nuevas fronteras para el futuro.

¿Quiere experimentar la diferencia que supone la tecnología de IA en la colaboración? Póngase en contacto con nosotros hoy mismo para obtener una demostración.

Más información Diseñar sistemas de IA responsables Las últimas características de IA de Webex que potencian el futuro del trabajo Potenciar la experiencia del trabajo y del cliente en un trabajo híbrido

About The Author

Chris Rowen
Chris Rowen VP of Engineering Cisco
Chris is a Silicon Valley entrepreneur and technologist known for his groundbreaking work developing RISC microprocessors, domain-specific architectures and deep learning-based software.
Learn more

Topics


More like this