Depuis le lancement de Webex Assistant en 2020, nos clients nous demandent souvent : « Est-il précis ? » Je les comprends. Les clients veulent s’assurer que s’ils décident d’utiliser le moteur de transcription automatisé basé sur l’IA (intelligence artificielle) de Webex, ils obtiendront ce qui leur a été annoncé : disposer d’un compte-rendu précis de leurs réunions, permettre aux participants de se concentrer sur la conversation au lieu de prendre des notes et rendre les réunions plus inclusives grâce à des fonctionnalités d’accessibilité. Il existe tellement d’exemples de cas d’utilisation de l’intelligence artificielle pour lesquels des promesses séduisantes n’ont pas été tenues. Pour les activités professionnelles essentielles, Webex a réalisé d’énormes progrès afin de veiller à ce que la précision reste au cœur des préoccupations.
Alors que le monde entier commence à adopter un modèle de travail hybride, des fonctionnalités telle que les sous-titres fermés, la transcription, et la capture d’éléments d’action sont devenues plus importantes que jamais. En effet, elles favorisent des expériences de réunions inclusives et équitables, quels que soient la langue parlée par les utilisateurs ou leurs besoins éventuels en matière d’accessibilité. Grâce à elles, les utilisateurs peuvent choisir de ne pas assister à une réunion en raison d’un emploi du temps chargé, car ils savent pertinemment qu’ils pourront compter sur Webex Assistant pour leur en fournir un compte-rendu. Notre objectif est d’exploiter l’IA et le Machine Learning afin d’optimiser pour tous chaque expérience de réunion.
Concevoir des moteurs de transcription de pointe basés sur l’IA est une façon d’atteindre cet objectif.
Webex s’est beaucoup investi dans le développement de processus efficaces et complets d’étiquetage, d’entraînement et d’apprentissage automatique. Nous sommes fiers de mettre à profit ces bases pour déployer un moteur de transcription de l’anglais qui présente une précision de pointe pour l’expérience de réunion Webex et rivalise avec certains des meilleurs moteurs de reconnaissance de la parole disponibles sur le marché. Dans l’optique d’élargir la portée de notre technologie à plus de 98 % des clients Webex dans le monde entier, nous allons déployer des moteurs de reconnaissance automatique de la parole (ASR), développés entièrement en interne, pour l’espagnol, le français et l’allemand ; ils seront proposés gracieusement à tous les utilisateurs de Webex Assistant dans la première moitié de cette année.
Que signifie exactement le terme « précision » ?
La transcription précise d’une conversation nous évoque souvent une personne écoutant ce fichier audio pour en produire une transcription qui reflète exactement ce qui a été dit. Cependant, pour relativiser, le taux d’erreur humaine a été mesuré sur certains ensembles de données populaires, tels que « CallHome », et les meilleurs résultats ont rapporté jusqu’à présent un taux d’erreur de 6,8 %. Cette valeur signifie que pour une transcription de 100 mots, environ 7 d’entre eux seraient mal retranscrits par un humain. Il est à noter que l’ensemble de données « CallHome » est constitué de conversations téléphoniques de 30 minutes non scénarisées entre anglophones natifs[1]. Le pourcentage d’erreur serait probablement plus élevé s’il s’agissait d’intervenants parlant anglais avec des accents différents.
Plus intéressant encore, l’accord inter-transcripteur mesuré par le consortium LDC (Linguistics Data Consortium) mentionne des valeurs allant de 4,1 % à 9,6 % selon qu’il s’agit de transcriptions multiples minutieuses ou d’une seule transcription rapide[2]. Cela signifie que pour un même fichier audio, deux personnes différentes ne produiront pas exactement la même transcription de ce qui s’est dit, même dans un environnement offrant des conditions idéales.
Alors que nous continuons à améliorer la fonctionnalité de transcription de Webex, notre objectif n’est pas d’égaler la transcription humaine, mais de la surpasser afin d’obtenir la meilleure précision possible pour chaque langue que nous prenons en charge, et ce, quels que soient les accents, les genres et les environnements acoustiques.
Donc, pour répondre à la question « Est-il précis ? », il est essentiel de souligner les différentes dimensions de la précision dans la reconnaissance automatique de la parole :
1. La précision est mesurée en taux d’erreur de mots (WER, Word Error Rate)
Le taux d’erreur de mots mesure les performances de la machine qui transcrit ce que disent des locuteurs.
Le même fichier audio que le modèle de machine learning (ML) a transcrit est communiqué à des étiqueteurs humains qui fourniront la vérité terrain pour la transcription.
Le taux d’erreur de mots (WER) est calculé en divisant le nombre d’erreurs par le nombre total de mots. Pour calculer le WER, commencez par ajouter les substitutions, les insertions et les élisions qui se produisent dans une séquence de mots reconnus. Divisez ce nombre par le nombre total de mots conformément à la vérité terrain. Le résultat obtenu est le WER. Pour simplifier par une formule : Taux d’erreur de mots = (Substitutions + Insertions + Élisions ) / Nombre de mots prononcés[3].
Une substitution se produit lorsqu’un mot est remplacé par un autre (par exemple, « Carl » est transcrit par « Car »).
Une insertion correspond à un mot ajouté alors qu’il n’est pas prononcé (par exemple, « moyennement » devient « moyen dément »).
Une élision est un mot qui n’est pas du tout mentionné dans la transcription (par exemple, « arc-en-ciel » devient « arc ciel »).
Plus la valeur du WER est faible, plus le moteur de transcription est performant ; ce qui signifie qu’il fait moins d’erreurs.
Dans le graphique ci-dessous, juin 2020 constitue la référence du modèle livré pour le moteur de transcription basé sur l’IA de Webex Assistant. Comme vous pouvez le constater, nous avons constamment amélioré notre WER, pour atteindre une amélioration incrémentielle de 36 % en février 2022.
2. Tout dépend de l’ensemble de données
Il n’existe pas de mesure WER absolue pour les moteurs de reconnaissance de la parole, quels qu’ils soient. Chaque ensemble de données s’accompagne de plusieurs attributs tels que la distribution des dialectes, les genres, l’environnement acoustique et les domaines. Par conséquent, le fait d’exécuter le moteur de transcription Webex sur un ensemble de données de livres audio aurait pour résultat une valeur WER différente de celle obtenue sur des réunions Webex ou encore sur des appels téléphoniques. De plus, l’exécution du même moteur de transcription sur des réunions Webex entre des utilisateurs anglophones de naissance générerait un taux d’erreur différent de celui obtenu si les participants à la réunion parlaient anglais avec un accent.
Pour obtenir une précision optimale, nous ne ciblons que le cas d’utilisation correspondant aux visioconférences. Les participants à une visioconférence s’expriment de façon très différente comparé à des personnes conversant au téléphone ou s’adressant à leur appareil Alexa. Nos moteurs de reconnaissance de la parole relèvent ces motifs spécifiques et les optimisent pour les visioconférences. En développant un moteur ASR en interne plutôt qu’en utilisant celui d’un fournisseur indépendant, nous avons la possibilité d’entraîner nos modèles ML conformément aux attributs1 spécifiques à l’expérience de réunion Webex.
3. La précision s’affine au fil de la réunion
Notre système de reconnaissance automatique de la parole (ASR) crée 3 types de transcriptions pendant toute la durée de la réunion :
Énoncé préliminaire/provisoire : l’énoncé préliminaire est ce que vous voyez en temps réel. Si vous regardez les sous-titres fermés en cours de réunion Webex [zone noire sur la capture d’écran ci-dessous] alors que vous parlez, une ébauche de texte est créée pendant les premières millisecondes de transcription. Il s’agit-là du tout premier texte que vous voyez et c’est ce que nous appelons transcription audio en ligne/en streaming.
Énoncé final : au bout de quelques millisecondes, une autre ébauche la transcription est créée, offrant une plus grande précision. Tout ceci se déroule en temps réel et n’est pas facilement perçu à l’œil nu.
Voir l’exemple ci-dessous
Dans cet exemple, pour un énoncé prononcé dans une de nos réunions d’équipes, 13 ébauches ont été créées pour une seule déclaration. Tout ceci se déroule en temps réel pour parvenir à une précision optimale de la phrase finale et de l’expérience utilisateur en temps réel.
Amélioration : une fois la réunion terminée, nous exécutons de nouveau un ensemble de moteurs de transcription pour optimiser la précision de la transcription. Les transcriptions optimisées sont disponibles en moyenne dans les 10 minutes, indépendamment de la durée de la réunion. Cette version correspond à la transcription la plus précise de la réunion.
4. D’autres problèmes de transcription influent sur la précision
Ponctuation et utilisation de majuscules :
Même si transcription est précise, la ponctuation et l’utilisation des majuscules ne sont peut-être pas correctes dans le texte. Les règles de ponctuation et de mise en majuscules sont propres à chaque langue, et nous devons entraîner nos modèles pour les respecter afin que nos utilisateurs trouvent les transcriptions agréables à lire.
Attribution de la prise de parole :
L’attribution de la prise de parole affecte un extrait de texte à un locuteur pour identifier qui est intervenu au cours d’une réunion. Si un énoncé est attribué au mauvais locuteur, la perception de qualité s’en ressent. L’attribution de la prise de parole nous permet de développer des fonctionnalités intéressantes, telles que des analyses du temps de prise de parole de chaque participant à une réunion.
Gestion des acronymes et des noms propres :
Les moteurs de reconnaissance de la parole sont généralement entraînés avec des mots du vocabulaire usuel, qui ne comprend pas les noms propres, les acronymes des entreprises, le jargon médical, etc. Par exemple, l’acronyme « COVID-19 » était inconnu dans le monde avant 2020 et notre ASR n’aurait pas pu le reconnaître comme il ne figurait pas dans son vocabulaire. Notre équipe suit plusieurs méthodes pour fournir une transcription plus précise des mots hors vocabulaire (tels que les noms des participants aux réunions) et utilise la vision par ordinateur pour apprendre des acronymes figurant sur une présentation partagée pendant une réunion.
Gestion des nombres et des formats spéciaux :
Certains nombres doivent respecter un format particulier, comme les numéros de téléphone (+1 203 456 7891 aux États-Unis), les e-mails (nom@email.com), les dates (15 avril 2021), etc. Les modèles de ML entraînés pour ces formats spéciaux identifient les mots prononcés et appliquent ensuite un traitement au texte afin qu’il s’affiche au format adéquat. Toutes ces opérations sont réalisées en temps réel.
Diaphonie :
Lorsque plusieurs personnes s’expriment en même temps ou s’interrompent, la transcription (même si elle est précise) en devient parfois illisible — au détriment de la perception de la qualité. Pour résoudre ce problème, nous développons actuellement des fonctionnalités qui exploitent la reconnaissance faciale et l’empreinte vocale pour distinguer différents intervenants.
Sommes-nous parfaitement au point ?
Pas tout à fait. Toutefois, il s’agit d’un marathon, pas d’une course de sprint. En poursuivant l’entraînement sur des données spécifiques à certains domaines et en nous efforçant de réduire les biais tout en assurant la sécurité et la confidentialité des données des clients, nous pensons que notre moteur de transcription IA développé en interne pour Webex égalera, voire dépassera, le taux d’erreur de mots humain.
Pour le découvrir par vous-même dès aujourd’hui, inscrivez-vous afin de bénéficier d’un essai gratuit