En matière d’expérience de vidéoconférence de qualité, on a souvent tendance à se focaliser sur les visuels. Cisco Webex Meetings est incontestablement un leader de l’industrie à cet égard, car il propose aux utilisateurs des fonctionnalités avant-gardistes comme les affichages personnalisés, les gestes et réactions, les structures vidéo avancées et le partage immersif. J’aime pour ma part ajouter un arrière-plan amusant, et j’adore recevoir des émojis pouce en l’air de la part des participants. Mais aujourd’hui, je voudrais parler de l’importance d’une qualité audio excellente pendant vos vidéoconférences grâce à une parole claire et sans bruits de fond.
D’après Gartner, d’ici 2024, seules 25 % des réunions auront lieu en personne. Si la majorité des réunions se feront désormais à l’aide de solutions informatiques, il n’est plus seulement agréable, mais indispensable, de disposer d’une bonne qualité audio. La performance d’une organisation, ainsi que sa capacité à proposer une main-d’œuvre diverse et répartie partout dans le monde dépendent de la bonne compréhension entre toutes ces personnes. La parole et l’écoute sont les éléments clés d’une bonne compréhension.
Les défis dans l’élaboration d’une technologie efficace d’amélioration de la parole
Il peut parfois s’avérer difficile de comprendre les participants à votre réunion en vidéoconférence. C’est encore pire lorsque vous travaillez dans un espace bruyant, sur un ordinateur portable doté d’une connexion réseau limitée, tandis que votre système tente de transmettre des flux audio sur des réseaux mondiaux complexes à des centaines de collègues.
Dans le passé, les algorithmes se sont efforcés d’extraire les informations utiles d’un discours, de façon à obtenir une qualité audio claire en vidéoconférence pour soulager la charge cognitive des humains et la charge informatique des appareils électroniques. Ces algorithmes devaient gérer la quantité de bruit, le degré de réverbération, le nombre d’intervenants, la bande passante et les limites de latence, mais aussi la perte de paquets et les effets de la compression audio, tout en respectant la confidentialité et la sécurité des données des utilisateurs.
De plus, les bruits produits lors d’une prise de parole sont si variés que les développeurs d’algorithmes devaient déterminer la nature des bruits à séparer du discours, en d’autres termes identifier ce qui est de la parole et ce qui ne l’est pas. Ils se sont donc efforcés de supprimer les bruits stationnaires, constants en amplitude et en fréquence, comme les ventilateurs ou les moteurs. Mais les nuisances sonores les plus courantes sont transitoires : chiens qui aboient, klaxons, bruits des touches de clavier et conversations en bruit de fond. Par ailleurs, de nombreux environnements, en particulier les bureaux à la maison qui ne sont pas conçus pour une bonne performance acoustique, peuvent présenter une forte réverbération ou de l’écho.
Une meilleure compréhension grâce à Cisco Webex Meetings
De nos jours, les méthodes de parole en réseau neuronal commencent à faire la différence en matière d’efficacité de résolution des problèmes. En tant que fondateur et PDG de BabbleLabs (société acquise par Cisco en octobre 2020), mon équipe et moi avons travaillé au développement d’une amélioration vocale de première qualité. Nous prévoyons à présent d’intégrer nos fonctionnalités audio par IA au sein de l’équipe Webex Voice Technology. Comment allons-nous procéder ? Pour le dire simplement, nous prenons des structures de réseau neuronal, collectons des centaines de milliers d’heures de discours et de bruits, ainsi que des dizaines de milliers d’heures d’acoustique intérieure, et créons des modèles personnalisés pour transformer l’expérience de parole. Et nous proposons cette technologie avec une latence de seulement 10 millisecondes.
L’amélioration de la parole a récemment gagné en popularité dans le domaine des vidéoconférences. Tout le monde souhaite s’approprier des outils d’amélioration de la parole, mais tout le monde n’atteint pas les mêmes résultats. Notre régime d’essais systématiques a démontré que l’algorithme d’amélioration de la parole de Cisco Webex Meetings est le plus efficace disponible sur le marché pour un usage commercial généralisé. Nous avons utilisé le même outil de qualité pour mesurer la plupart des systèmes de vidéoconférence disponibles (norme ITU P.862 : Évaluation de la qualité vocale perçue), ainsi que trois grandes suites de flux de bruits et réverbérants typiques, l’une développée par Cisco et les deux autres par Microsoft. Sur tous les essais, Webex a retiré davantage de bruits et de réverbération que les autres, et a atteint un score supérieur aux dernières versions de Zoom (5.4.1) et Microsoft Teams (1.4.00.4167).
Depuis le premier lancement public de sa technologie d’amélioration de la parole il y a deux ans, et grâce à l’engagement croissant des ressources chez Cisco, nous avons plus que doublé la qualité de la parole et réduit les exigences informatiques pour permettre à ces modèles de fonctionner 400 fois plus vite.
Quelle est la prochaine étape pour la technologie vocale de Cisco Webex Meetings ?
Nous nous efforçons de repousser les limites de la performance et de réduire encore plus la charge informatique de nos systèmes pour une intégration universelle et simplifiée. Il devient plus facile de savoir qui parle et où, mais aussi de supprimer les nuisances sonores de leur environnement tout en amplifiant le son de leur voix.
L’IA met à notre disposition de nouveaux outils puissants permettant d’extraire davantage de données et de communiquer sans effort. Nous allons bientôt lancer de nouvelles fonctionnalités intelligentes pour faire une différence encore plus grande en matière de compréhension, notamment :
- Amélioration de la parole sachant faire la différence entre les divers intervenants intelligibles dans les salles de conférence : extraction précise des intervenants situés à proximité de leur micro, par rapport à ceux qui se trouvent plus loin, afin de pouvoir supprimer ou amplifier la parole si nécessaire.
- Nouvelles capacités d’amélioration de la parole pour les appareils intelligents : nouvelles intégrations et fonctionnalités pour exploiter la puissance des ordinateurs, appareils et téléphones les plus avancés.
- Reconnaissance des commandes à l’aide d’algorithmes d’amélioration vocale uniques : afin de compléter l’assistant vocal et les technologies de transcription de Webex, déjà dotées d’un vaste vocabulaire, et d’assurer une exécution efficace des technologies avancées, une haute performance et une configuration facile des nouvelles commandes.
Nous vivons dans un monde bruyant, mais ne laissons pas le bruit nuire à notre productivité. L’amélioration de la parole est disponible dans les déploiements en volume des produits Cisco Webex Meeting depuis plus de sept mois. Et cette fonctionnalité fait bien plus que réduire le bruit : elle améliore la parole et la compréhension, tout en maintenant l’engagement fondamental de Cisco en matière de confidentialité, sécurité et d’impartialité.
Vous voulez écouter notre technologie d’amélioration de la parole en action et en savoir plus sur les algorithmes d’amélioration de la parole de Cisco Webex Meeting ?
Visionnez mon intervention Cisco Live BabbleLabs : d’incroyables nouvelles fonctionnalités audio par IA, maintenant disponible pour les titulaires du pass « All Access » de Cisco Live et pour les personnes ayant créé un compte Cisco Live au début de l’été.
Pour en savoir plus
La montée de l’amélioration de la parole par IA et une meilleure collaboration des équipes