Comment notre quête d’une IA audio/vidéo inclusive assure l’avenir de la collaboration

En matière d’expérience de travail hybride, Webex innove sans cesse. Notre équipe exploite l’intelligence artificielle et les méthodes de deep learning pour fournir une expérience de collaboration exceptionnelle – améliorant l’expérience audio et vidéo, la traduction et la transcription, et élargissant le champ de l’assistance automatisée. Grâce à notre approche de l’intelligence artificielle, nos utilisateurs ont le sentiment d’être vus, entendus et valorisés, qu’ils participent depuis leur domicile, leur bureau ou pendant leurs déplacements. Nous avons conçu notre plateforme IA dans le but d’offrir une approche inclusive de la collaboration, permettant ainsi la participation avec des personnes du monde entier, quels que soient leur langue, leur genre ou leur âge. Cette approche est décrite dans notre récent article consacré au cadre de Cisco pour une IA responsable, qui aborde la gouvernance, les processus et les mesures de formation que nous appliquons afin de réduire ou éliminer les biais pouvant résulter des algorithmes ou des ensembles de données. Webex est particulièrement bien placé afin de proposer une expérience de collaboration sécurisée et intégrée sur tous nos appareils, ainsi que sur les ordinateurs de bureau et portables, les smartphones et les autres formats émergents. Notre vision est de fournir une expérience comparable, voire supérieure, à la participation en personne. Notre façon d’aborder l’IA se traduit par une meilleure compréhension, une fatigue moindre et une plus grande simplicité d’emploi. Notre objectif est d’utiliser l’IA pour augmenter la clarté des communications entre les participants et répondre de manière plus adaptée aux besoins individuels des personnes. Les équipes Webex ont structuré leurs capacités IA de telle sorte que la collaboration soit considérée comme une entité globale plutôt que sous la forme de silos technologiques distincts en lien avec l’IA.

Une conception pour les environnements de travail hybride complexes

Notre objectif est d’appliquer l’intelligence du machine learning à l’audio, à la vidéo et au langage naturel de telle sorte qu’elle se développe particulièrement dans les environnement de travail hybride complexes et que l’adaptabilité de l’utilisateur final en soit augmentée.

Une approche inclusive de la collaboration

Nos modèles de ML sont entraînés avec des ensembles de données volumineux et diversifiés afin de reconnaître un vaste éventail de langues et d’accents pour l’identification de la parole, et des données démographiques extrêmement variées pour la vision par ordinateur.

Une conception profondément ancrée autour de la confidentialité et de la sécurité

Notre architecture technologique applique intrinsèquement une approche privée et sécurisée aux calculs du machine learning. Pour ce faire, les traitements ont lieu principalement sur les ordinateurs portables et les appareils des utilisateurs finaux plutôt qu’après un transfert vers le cloud. Cette méthode d’edge computing (informatique en périphérie) appliquée à la technologie d’IA renforce naturellement la sécurité des données et des flux multimédias. L’approche de Webex en termes de développement de l’IA repose sur les principes de fiabilité des données de Cisco.

Une expérience de collaboration à faible latence

L’approche orientée vers la périphérie fournit également une expérience réactive car les données multimédias sont ainsi traitées en quelques dizaines de millisecondes, alors que des allers-retours via le cloud engendreraient une latence hautement aléatoire. En outre, nos algorithmes sont conçus de telle sorte qu’ils s’adaptent à différents types de processeurs, de budgets en termes de puissance et de systèmes d’exploitation – assurant ainsi de pouvoir travailler de partout.

Uniformisation de l’expérience de collaboration sur les appareils Webex

Les technologies d’IA de Webex fonctionnent en arrière-plan pour optimiser l’expérience dans sa globalité. Elles sont directement intégrées aux téléphones de bureau, aux ordinateurs fixes et aux appareils de salles de conférence Webex.

Des opportunités d’innovations constantes

L’architecture IA de Webex, complète et centrée sur la collaboration, enrichit l’expérience multimédia et ouvre la voie à de nouvelles opportunités permettant de s’adapter rapidement à de nouveaux cas d’utilisation et de domaines spécifiques aux clients.

Approche basée sur l’IA de Webex pour l’analyse des flux multimédias et la reconstruction

analyse du flux multimédia et reconstruction

Figure 1 : Modèle de traitement audio basé sur l’IA de Webex

Les clients Webex comptent sur notre portefeuille pour collaborer de partout. Notre approche consiste à identifier les caractéristiques du participant, indépendamment de son environnement, puis à exploiter l’IA et le machine learning (ML) pour séparer l’audio ou la vidéo en flux segmentés riches en données. Ce niveau d’extraction détaillée de flux de composants significatifs n’avait jamais été possible dans les logiciels de communication en temps réel les plus courants.

1. Décomposition basée sur le ML

La décomposition sépare un flux audio entrant comprenant les éléments suivants :

Les intervenants au premier plan et à l’arrière-plan sont identifiés par l’estimation de la distance entre chaque intervenant et le micro en fonction du volume de la parole et de l’intensité de la réverbération.
Les événements audio sont détectés par l’inclusion de déclencheurs de sons spécifiques ou de mots clés.
La réverbération, les échos discrets d’une voix dans une pièce, est séparée et éventuellement ajustée pour accentuer la clarté de la voix du participant.
La musique de fond est séparée en son propre flux, permettant ainsi de régler le volume à l’étape de recomposition.
Le bruit de fond est séparé des éléments ambiants (mais il peut en inclure) qui seront ajustés selon le cas d’utilisation.

2. Composants audio par utilisateur

Une fois les flux de données séparés, nous les regroupons en composants audio par utilisateur, ce qui nous permet de sélectionner, de modifier ou d’agir individuellement sur le flux audio de chaque participant.

3. Reconstruction basée sur le ML

Selon le cas d’utilisation, nous pouvons combiner les flux de données individuels pour les réintégrer dans l’audio partagé avec les autres participants. Cette méthode convient à divers cas d’utilisation et exigences. Par exemple, la fonctionnalité audio intelligente de Webex smart audio permet aux participants de choisir de supprimer le bruit de fond (Suppression du bruit), de supprimer tous les bruits de fond et les paroles à l’arrière-plan (Optimiser pour ma voix) ou d’entendre le son d’origine lorsque vous jouez d’un instrument ou chantez (mode Musique).

4. Rendu audio

Le flux audio résultant est fourni aux autres participants sous une forme compréhensible avec un minimum d’effort intellectuel.

L’avantage computationnel au service de nouveaux cas d’utilisation

Étant donné que notre architecture IA est axée sur la collaboration, nous séparons le flux multimédia dans un cycle de calcul unique au lieu de le traiter plusieurs fois via différents modèles. Cette méthode augmente l’efficacité globale du processus et fournit une expérience à faible latence. Nous pouvons aussi ajouter facilement de nouveaux composants au cycle de calcul du flux, ce qui autorise de nouveaux scénarios d’utilisation éventuels avec une image plus riche du flux d’entrée. L’approche de Webex en matière de traitement du flux multimédia s’étend aux applications suivantes :

La reconnaissance vocale optimise la compréhension

Nous pouvons distinguer les intervenants du bruit ambiant, les intervenants qui se trouvent plus près ou plus éloignés du micro, et même régler la réverbération de la salle. Tous ces éléments sont identifiés sous la forme de flux séparés, ce qui offre une plus grande flexibilité pour répondre aux besoins spécifiques d’un utilisateur. Nous pouvons sélectionner, modifier et agir individuellement sur ces flux, puis reconstituer de nouveaux flux audio à partir d’un choix de composants audio. Par exemple, lors d’un appel, nous pourrions égaliser le volume des intervenants au premier plan ou à l’arrière-plan, alors que pour d’autres, nous pourrions seulement mettre en exergue l’intervenant placé au plus près du micro. Nous pourrions aussi reconnaître des déclencheurs d’événement audio tels que « OK Webex » ou mettre en évidence d’autres éléments audio environnants qu’un participant juge importants.

La vision par ordinateur booste la puissance des flux vidéo

Notre approche du flux multimédia nous permet de mieux comprendre la scène à l’écran et de recomposer des éléments afin d’améliorer la qualité vidéo. Par exemple, nous pouvons dissocier un participant de son arrière-plan et distinguer ses gestes. Nous pouvons réaliser le rendu vidéo en sélectionnant et en modifiant ces flux séparés pour que les autres participants voient mieux le présentateur, avec un minimum d’éléments gênants. Cette méthode ouvre un univers de possibilités et facilite la collaboration dans des environnements difficiles.

Webex Assistant optimise l’expérience de collaboration

Webex Assistant fournit des commandes vocales pour l’expérience de collaboration, une intelligence dynamique, des transcriptions et des services de traduction. Nous avons mis en œuvre ces fonctionnalités de telle sorte que la plus grande part de la reconnaissance de la langue soit réalisée sur l’appareil, ce qui augmente la précision et réduit la latence (jusqu’à quatre fois moins par rapport aux systèmes cloud standards). Webex Assistant propose également des API avec des compétences Webex Assistant, afin que les développeurs indépendants puissent ajouter de nouvelles fonctionnalités et se connecter à leurs applications avec des commandes vocales. Nous avons élargi le nombre de langues prises en charge pour les transcriptions et les traductions, et même ajouté des langues supplémentaires pour nos appareils, avec l’anglais (déjà existant), l’allemand, le français, l’espagnol et le japonais.

La vision par ordinateur ouvre les frontières de la 3D

La vision par ordinateur permet l’identification de l’environnement spatial dans un flux vidéo. L’approche de Webex concernant la 3D vise à réduire la charge cognitive pour les présentateurs et les participants plutôt que de recourir à des casques AR/VR pour les représenter dans un espace entièrement constitué de réalité virtuelle. Par exemple, nous pouvons extraire avec précision une adaptation et des modèles 3D. Nous pouvons aussi scanner la géométrie faciale des participants pour personnaliser et améliorer l’image. L’approche de Webex concernant l’IA offre aux équipes une plus grande flexibilité pour collaborer et leur procure encore plus de possibilités de participer pendant les réunions. Le modèle robuste de traitement des flux multimédias basé sur l’IA fournit dès aujourd’hui une expérience de collaboration exceptionnelle et ouvre les nouvelles frontières de demain.

Vous souhaitez découvrir la différence qu’apporte la technologie d’IA à la collaboration ? Contactez-nous dès aujourd’hui pour bénéficier d’une démonstration.

En savoir plus Concevoir des systèmes d’IA responsables Les dernières fonctions d’intelligence artificielle de Webex au service de l’avenir du travail Améliorer le travail et les expériences des clients dans un monde hybride

About The Author

Chris Rowen VP of Engineering Cisco

Chris is a Silicon Valley entrepreneur and technologist known for his groundbreaking work developing RISC microprocessors, domain-specific architectures and deep learning-based software.

Learn more