Quando se trata de ter a melhor experiência de videoconferência, as pessoas geralmente ficam entusiasmadas com os recursos visuais. O Cisco Webex Meetings é certamente líder do setor nesse aspecto, fornecendo aos usuários recursos progressivos como visualizações, gestos e reações personalizáveis, layouts de vídeo avançados e compartilhamento imersivo. Eu mesmo adoro um fundo divertido, e adoro receber um emoji de aprovação dos participantes das reuniões. Mas hoje quero falar sobre a importância de obter áudio excelente em videoconferência por meio de uma fala clara e sem ruídos.
De acordo com a Gartner, em 2024, apenas 25% das reuniões serão presenciais. Com a maioria das reuniões acontecendo por meio de soluções de conferência, a fala inteligível não é apenas conveniente, é crucial. O desempenho de uma organização e sua capacidade de fornecer uma força de trabalho diversificada e dispersa depende de quão bem as pessoas podem se entender. Falar e ouvir são fundamentais para a compreensão.
Desafios ao desenvolver uma tecnologia eficaz de aprimoramento da fala
Compreender os participantes da reunião durante a videoconferência pode ser um desafio quando estiver em um escritório. É ainda pior quando se trabalha em uma casa barulhenta em um laptop com conexão de rede limitada quando o sistema está tentando enviar transmissões de áudio através de redes globais complexas para centenas de colegas.
No passado, os algoritmos se esforçavam para extrair informações úteis da fala de uma forma que resultasse em uma experiência de áudio de videoconferência clara que alivia a carga cognitiva do ser humano e a carga computacional da eletrônica. Eles sofriam com a quantidade de ruído, grau de reverberação, número de falantes, largura de banda e limitações de latência. Eles lutavam com a perda de pacotes e os efeitos da compactação de áudio, respeitando a privacidade e a segurança dos dados dos usuários.
Além disso, os ruídos encontrados na fala são tão diversos que os desenvolvedores de algoritmos têm se esforçado para saber qual áudio deve ser separado da fala. O que é fala e o que não é fala. Então, eles se concentraram em suprimir ruídos estacionários que são constantes em amplitude e frequência ao longo do tempo, como ventiladores e motores. Mas o barulho mais irritante é transitório: latido de cães, buzinas, teclados e o murmúrio de ruídos de fundo. Além disso, muitos ambientes, especialmente escritórios domésticos não projetados para perfeição acústica, são altamente reverberantes ou com eco.
Conquista de melhor entendimento com Cisco Webex Meetings
Hoje, os métodos de fala da rede neural estão começando a fazer uma grande diferença na eficácia com que podemos resolver esses problemas. Como fundador e CEO da BabbleLabs (que foi adquirida pela Cisco em outubro de 2020), minha equipe e eu temos trabalhado no desenvolvimento do melhor aprimoramento da fala. Agora estamos implementando o nosso assistente de áudio de IA como parte da equipe de tecnologia de voz Webex. Como fazemos isso? Em termos mais simples, pegamos estruturas de rede neural, coletamos centenas de milhares de horas de fala e ruído, dezenas de milhares de horas de acústica de ambiente e criamos modelos precisamente ajustados para transformar a fala. Fazemos isso em uma latência de apenas 10 milissegundos.
O aprimoramento de voz recentemente se tornou popular na videoconferência. Todo mundo tem alguma versão dele, mas nem todo mundo está alcançando os mesmos resultados. Nossos testes sistemáticos mostram que o algoritmo de aprimoramento de voz do Cisco Webex Meetings é o mais eficaz disponível para uso comercial generalizado. Usamos a mesma ferramenta de qualidade para medir a maioria dos sistemas de videoconferência disponíveis – padrão ITU P.862 – Avaliação Perceptual da Qualidade da Fala (PESQ) e três grandes pacotes de ruído típico e fluxos reverberantes, um desenvolvido pela Cisco e dois da Microsoft. Em todos os testes, o Webex removeu mais ruído e reverberação e obteve uma pontuação significativamente mais alta do que as versões recentes do Zoom (5.4.1) e do Microsoft Teams (1.4.00.4167).
Desde o primeiro lançamento público desta tecnologia de aprimoramento de voz, há dois anos, e com o compromisso cada vez maior de recursos da Cisco, melhoramos a qualidade da voz em mais de 2X e reduzimos os requisitos de computação para executar esses modelos 400 vezes mais rápido.
O que vem por aí para a tecnologia de voz do Cisco Webex Meetings?
Continuamos a ampliar os limites para níveis mais altos de desempenho e para reduzir ainda mais a carga de computação para obter uma implementação onipresente e indolor. Podemos entender quem são os locutores e onde estão, além de remover o ruído de fundo perturbador de seu ambiente enquanto amplificamos sua fala.
A IA está nos dando algumas novas ferramentas potentes para extrair mais insights e nos comunicar com menos esforço. Em breve, lançaremos novos recursos inteligentes que farão uma diferença ainda maior para a compreensão, incluindo:
- Aprimoramento de fala que pode distinguir locutores inteligíveis em salas de conferência: Extração precisa de locutores que estão perto do microfone e aqueles que estão longe, para que possamos suprimir ou aumentar a fala conforme necessário.
- Novos recursos de aprimoramento de fala para dispositivos inteligentes: Novas implementações e recursos para alavancar o poder de laptops, dispositivos e telefones de última geração.
- Reconhecimento de comando usando algoritmos de aprimoramento de voz exclusivos: Para complementar o grande vocabulário do Webex, assistente de voz e tecnologias de transcrição e trazer execução eficiente de ponta, alta precisão e fácil configuração para novos comandos.
Vivemos em um mundo barulhento, mas você não precisa deixar que isso atrapalhe a produtividade. O aprimoramento da fala tem sido distribuído em implementações de volume nos produtos Cisco Webex Meeting por mais de sete meses. Ele faz muito mais do que remover ruído: melhora a fala e a compreensão, ao mesmo tempo que mantém o compromisso fundamental da Cisco com a privacidade, segurança e justiça.
Quer ouvir nossa tecnologia de aprimoramento de fala em ação e aprender mais sobre os algoritmos de aprimoramento de fala do Cisco Webex Meeting?
Assista à minha palestra Cisco Live BabbleLabs – Assistente de áudio de IA agora disponível para portadores do passe Cisco Live All Access e para o público em geral que se registrar para uma conta Cisco Live no início do verão.
Saiba mais
A ascensão do aprimoramento da fala de IA e melhor colaboração em equipe