Como nossa busca por IA de áudio/vídeo inclusiva está impulsionando o futuro da colaboração

On By Chris Rowen7 Min Read
Person working from their laptop at a coffee shop
O Webex está inovando continuamente na experiência de trabalho híbrido. Nossa equipe está aproveitando a inteligência artificial e métodos de aprendizado profundo para oferecer uma experiência de colaboração excepcional, melhorando a experiência de áudio e vídeo, tradução e transcrição, e expandindo a assistência automatizada. Nossa abordagem à inteligência artificial ajuda os usuários a se sentirem vistos, ouvidos e valorizados, independentemente de participarem em casa, no escritório ou em trânsito. Projetamos nossa plataforma de IA com o objetivo de oferecer uma abordagem inclusiva à colaboração, permitindo a participação de pessoas de todo o mundo, independentemente de idioma, sexo ou idade. Você pode ler sobre essa abordagem em nossa estrutura de IA responsável da Cisco, recentemente publicada, especificando as medidas de governança, processo e educação pelas quais passamos para reduzir ou eliminar os vieses que podem surgir de algoritmos ou conjuntos de dados. O Webex está posicionado de forma única para oferecer uma experiência de colaboração integrada e segura em nossos dispositivos, desktops, laptops, smartphones e formatos de dispositivos emergentes. Nossa visão é proporcionar uma experiência tão boa quanto estar lá pessoalmente – ou melhor. Nossa abordagem à IA oferece maior compreensão, reduz a fadiga e melhora a facilidade de uso. Estamos focados em usar a IA para aumentar a clareza da comunicação entre os participantes e ser mais adaptável às necessidades individuais dos participantes. No Webex, arquitetamos nossos recursos de IA de uma maneira que considera a colaboração como um todo, em vez dos típicos silos de tecnologia relacionados à IA.

Projetado para ambientes de trabalho híbridos complexos

Nosso objetivo é aplicar inteligência de aprendizado de máquina a áudio, vídeo e linguagem natural de forma a aumentar a adaptabilidade do usuário final e prosperar em ambientes de trabalho híbridos complexos.

Oferece uma abordagem inclusiva à colaboração

Nossos modelos de ML são treinados com conjuntos de dados grandes e diversos para reconhecer uma ampla variedade de idiomas e sotaques para dados demográficos e de fala de visão computacional.

Desenvolvido com privacidade e segurança em sua essência

Nossa arquitetura de tecnologia oferece inerentemente uma abordagem privada e segura à computação de aprendizado de máquina, processando principalmente nos laptops e dispositivos do usuário final, em vez de transmitir para a nuvem. Essa abordagem de computação de ponta à tecnologia de IA melhora inerentemente a segurança de ativos e dados de mídia. A abordagem do Webex para o desenvolvimento de IA é baseada nos princípios de confiança de dados da Cisco.

Uma experiência de colaboração de baixa latência

A abordagem centrada na borda também oferece uma experiência responsiva porque a mídia pode ser processada em dezenas de milissegundos, enquanto as viagens de ida e volta pela nuvem apresentam latência altamente variável. E nossos algoritmos são projetados de forma que podem ser dimensionados para diferentes tipos de processadores, orçamentos de energia e sistemas operacionais – garantindo uma experiência de trabalho em qualquer lugar.

Simplifica a experiência de colaboração em dispositivos Webex

As tecnologias de IA do Webex funcionam em segundo plano para produzir uma melhor experiência geral e são integradas diretamente em telefones de mesa, desktops e dispositivos de sala de conferência Webex.

Oferece oportunidades voltados à inovação contínua

A arquitetura de IA abrangente e focada em colaboração do Webex enriquece a experiência de mídia e abre novas oportunidades para se adaptar rapidamente a novos casos de uso e domínios específicos do cliente.

A abordagem baseada em IA do Webex para análise e reconstrução de fluxo de mídia

análise e reconstrução de fluxo de mídia

Figura 1: Modo de processamento de áudio com tecnologia de IA do Webex

Os clientes Webex confiam em nosso portfólio para colaborar de qualquer lugar. Nossa abordagem é identificar as características do participante, independentemente dos seus ambientes e, em seguida, aproveitar a IA e o aprendizado de máquina (ML) para separar o áudio ou vídeo de entrada em fluxos ricos em dados segmentados. Esse nível de extração detalhada de fluxos de componentes significativos não era possível anteriormente em softwares de comunicação em tempo real amplamente implantados.

1. Decomposição alimentada por ML

A decomposição separa um fluxo de áudio de entrada, incluindo:
  • Os alto-falantes de primeiro e segundo plano são identificados estimando a distância que um alto-falante está do microfone com base no nível e reverberação da fala.
  • Os eventos de áudio são detectados, incluindo acionadores de som ou palavras-chave específicos.
  • A reverberação, os ecos sutis de uma voz em uma sala, é separada e pode ser ajustada para esclarecer a voz do participante.
  • A música de fundo é separada em um fluxo próprio, permitindo ajustes de volume na fase de recomposição.
  • O ruído de fundo é separado e pode incluir elementos de ambiente que podem ser ajustados dependendo do caso de uso.

2. Componentes de áudio por usuário

Uma vez que os fluxos de dados são separados, nós os agregamos em componentes de áudio por usuário, permitindo-nos selecionar, modificar ou realizar ações individualmente no fluxo de áudio de cada participante.

3. Reconstrução alimentada por ML

Com base no caso de uso, podemos combinar fluxos de dados individuais de volta ao áudio compartilhado com outras pessoas. Essa abordagem nos permite atender a vários casos de uso e requisitos. Por exemplo, o recurso de áudio inteligente do Webex permite que os participantes selecionem se desejam remover todo o ruído de fundo (remoção de ruído), remover todo o ruído de fundo e fala de fundo (otimizar para minha voz) ou ouvir o som original ao tocar um instrumento ou cantar (modo de música).

4. Áudio renderizado

O fluxo de áudio resultante é entregue a outros participantes de uma maneira mais fácil de compreender com menos esforço mental.

Vantagem computacional permite novos casos de uso

Como nossa arquitetura de IA está focada na colaboração, podemos separar a mídia em um ciclo computacional em vez de processar o fluxo de mídia várias vezes por meio de modelos diferentes. Essa abordagem aumenta a eficiência geral do processo e oferece uma experiência de baixa latência. Também podemos adicionar facilmente novos componentes ao ciclo computacional do fluxo, potencialmente permitindo novos cenários de uso com uma imagem mais rica do fluxo de entrada. A abordagem de processamento de fluxo de mídia do Webex se expande para:

O reconhecimento de voz melhora a compreensão

Podemos distinguir locutores de ruído, locutores que estão mais próximos ou mais distantes do microfone e até ajustar a reverberação da sala. Todos esses elementos são identificados como fluxos separados, permitindo maior flexibilidade para atender a uma necessidade específica do usuário. Podemos selecionar, modificar e realizar ações individualmente nesses fluxos e reconstruir novos fluxos de áudio a partir de componentes de áudio selecionados. Por exemplo, em uma chamada, podemos equalizar o volume dos locutores em primeiro ou segundo plano e, em outras, podemos apenas destacar o falante mais próximo do microfone. Também podemos reconhecer acionadores de eventos de áudio como “OK, Webex” ou destacar outros áudios ambientais que podem ser importantes para um participante.

A visão de máquina expande o potencial dos fluxos de vídeo

Nossa abordagem de fluxo de mídia nos permite ter uma compreensão mais rica do cenário do vídeo e recompor elementos para melhorar a qualidade do vídeo. Por exemplo, podemos distinguir um participante de seu histórico e dos gestos que ele está usando. Podemos renderizar o vídeo selecionando e modificando esses fluxos separados para maximizar o quão bem os outros participantes veem o apresentador, com o mínimo de distrações. Essa abordagem abre um mundo de possibilidades e facilita a colaboração dos participantes mesmo em ambientes difíceis.

O Assistente Webex aprimora a experiência de colaboração

O Assistente Webex fornece controles de voz voltados à experiência de colaboração, inteligência proativa, transcrição e serviços de tradução. Implementamos isso de forma a processar mais reconhecimento de idioma no dispositivo, aumentando a precisão e reduzindo a latência em até 4x em comparação com sistemas baseados em nuvem padrão. O Assistente Webex também oferece APIs com habilidades do Assistente Webex, para que desenvolvedores de terceiros possam adicionar novas funcionalidades e conectar-se a seus aplicativos com controles de voz. Expandimos o número de idiomas suportados para transcrição, traduções e até adicionamos outros idiomas em dispositivos, incluindo inglês (existente), alemão, francês, espanhol e japonês.

A visão de máquina abre fronteiras com a tecnologia 3D

A visão computacional permite a identificação do ambiente espacial em um fluxo de vídeo. A abordagem do Webex para 3D se concentra na redução da carga cognitiva para apresentadores e participantes, em vez de exigir que os fones de ouvido AR/VR os incorporem em um espaço de realidade totalmente virtual. Por exemplo, podemos extrair modelos 3D precisos e adaptação. Também podemos escanear a geometria facial dos participantes para permitir aprimoramento e personalização da imagem. A abordagem do Webex para IA permite que as equipes colaborem com maior flexibilidade e expande a forma como as pessoas podem participar de reuniões. O modelo robusto de processamento de fluxo de mídia com inteligência artificial oferece hoje uma experiência de colaboração de classe mundial e abre novas fronteiras para o futuro.

Quer experimentar a diferença que a tecnologia de IA faz para a colaboração? Entre em contato conosco hoje para obter uma demonstração.

Saiba mais Projetando sistemas de IA responsivos Os recursos mais recentes de IA do Webex capacitando o futuro do trabalho Elevando o trabalho e as experiências do cliente em um trabalho híbrido

About The Author

Chris Rowen
Chris Rowen VP of Engineering Cisco
Chris is a Silicon Valley entrepreneur and technologist known for his groundbreaking work developing RISC microprocessors, domain-specific architectures and deep learning-based software.
Learn more

Topics


More like this