Exploitation des actes de parole pour l'’IA conversationnelle

Ce billet de blog vient en complément de ma présentation lors de la conférence REWORK du 28 avril 2021. Les diapositives de la conférence sont disponibles
ici
.

La compréhension du langage naturel (NLU) est un élément clé de tout système d’’IA conversationnelle. Typiquement, dans un système de dialogue orienté sur une tâche, la NLU consiste en des classificateurs chargés d’’identifier l’’intention de l’’utilisateur et les créneaux ou entités présents. Le gestionnaire de dialogue s’’appuie sur ce résultat pour sélectionner l’’état de dialogue approprié et prend les mesures correspondantes pour répondre à la demande de l’’utilisateur. Dans certains cas, il n’’est pas possible de définir clairement une intention, ou bien il arrive que le simple fait de connaître l’’intention et les entités présentes dans la demande de l’’utilisateur ne permette pas de fournir suffisamment d’’informations pour que le gestionnaire de dialogue adopte la mesure optimale. Prenons comme exemple l’’interaction suivante entre un utilisateur et un robot sur un site Wweb de vente au détail de vêtements :

L’’utilisateur commence l’’interaction par une salutation, suivie d’’une demande de recherche d’’un produit spécifique. Dans ces deux cas, l’’intention et les créneaux identifiés sont suffisants pour que le robot réponde intelligemment et réussisse à fournir une recommandation pertinente à l’’utilisateur. Le problème survient lorsque l’’utilisateur répond à la recommandation en donnant son impression sur le produit. À quelle intention ces requêtes doivent-elles être associées, et quelles entités doivent-elles être détectées ? D’’habitude, nous gérons ce genre de situation en invitant l’’utilisateur à rediriger la conversation vers quelque chose de plus exploitable, tel que : « Hmm, je n’’ai pas bien compris. Pour voir plus d’’options, dites : « Montrez-m’’en plus » ».

Bien que cette expérience utilisateur ne soit pas absolument terrible, nous pouvons rendre le bot plus intelligent en incorporant un module classificateur supplémentaire au système NLU, afin d’’identifier les actes de parole ou les actes de dialogue.

Que sont les actes de parole ?

Un acte de parole saisit le contexte et l’’intention de l’’utilisateur dans chaque énoncé d’’une conversation. Ces intentions diffèrent des intentions de dialogue habituelles en ce qu’’elles sont de nature plus générale. Par exemple, « Quel est le prix de ceci ? » et « Quel temps fait-il aujourd’’hui ? » peuvent appartenir respectivement aux intentions « « GET_COST » » et « « GET_WEATHER » », mais ils ont le même acte de parole : « « QUESTION » », ou si vous voulez plus de granularité, « « WH-QUESTION » ». Il existe différentes taxonomies d’’actes de parole définies dans la littérature, et nous pouvons utiliser le sous-ensemble qui convient à notre application. Pour avoir une meilleure idée de ce que peuvent être ces balises, reportez-vous à la taxonomie SWBD-DAMSL, qui décrit un riche ensemble de 42 balises.

Actes de parole pour la gestion du dialogue

Dans l’’exemple d’’interaction robot/utilisateur que nous avons présentée précédemment, nous pourrions avoir des étiquettes d’’actes de parole de « SALUTATION » (ou « OUVERTURE CONVENTIONNELLE »), « QUESTION » et « OPINION-NEGATIVE » pour les trois requêtes de l’’utilisateur. Maintenant que nous savons que la dernière expression de l’’utilisateur a été une opinion négative envers la marque (étiquetée comme appartenant au type d’’entité « catégorie »), le gestionnaire de dialogue peut filtrer la liste recommandée afin d’’exclure les options de la catégorie « non apprécié ».

Les actes de parole pour identifier les éléments exploitables dans les conversations

Une autre application intéressante des actes de parole que nous avons expérimentée est leur utilisation pour extraire les points forts d’’une réunion. Contrairement au résumé d’’articles de presse, qui est un problème bien étudié, il est difficile de fournir un résumé extractif d’’une réunion (c’’est-à-dire les points saillants de celle-ci), car les données annotées sont difficiles à localiser. Ce qui constitue un point fort relève en grande partie de la subjectivité. Un ingénieur, par exemple, peut se concentrer sur les détails de mise en œuvre discutés lors de la réunion, alors qu’’un chef de produit n’’aura peut-être pas besoin des détails techniques de fond. Cette subjectivité, ainsi que la nature sensible des données produites par la réunion, font qu’’il est difficile d’’obtenir des données annotées pour entraîner un modèle.

La littérature et les enquêtes internes ont montré que si les gens sont bien d’accord sur une chose’il y a une chose sur laquelle les gens sont d’accord, c’’est que les actes et leur suivi doivent faire partie des principaux résultats d’’une réunion. Motivés par ce constat, nous nous concentrons sur l’’identification des points à traiter lors des réunions. Vous trouverez ci-dessous des exemples de ce que nous entendons par « éléments exploitables ». Il semble exister deux grandes catégories pour qualifier le mode d’’expression des actions : un orateur promet une action, ou il donne un ordre. Cette observation fait des actes de parole une solution parfaite pour résoudre ce problème.

Nous définissons notre taxonomie des actes de parole pour cette tâche comme suit :

Engagements [COM] : un orateur promet de faire quelque chose.
- « Je vous enverrai les détails par e-mail ».
- « Je vais organiser une réunion avec Jérémy lundi ».
Directives [DIR] : le locuteur demande à l’’auditeur de faire quelque chose en réponse.
- « Peux-tu te synchroniser avec eux demain ? »
- « Quelle est votre estimation pour ce projet ? »
Élaboration [ELB] : le locuteur ajoute des informations complémentaires à un COM ou un DIR.
- « Je vais organiser une réunion avec Emma aujourd’’hui. Le principal objectif est de discuter de ce projet avec elle pour clarifier les choses ». (COM suivi de ELB)
- « Vous devriez commencer à travailler sur la documentation. Cela ne fera que faciliter le processus de partage ». (DIR suivi de ELB)
Reconnaissance [ACK] : le locuteur reconnaît quelque chose.
- « Ah oui, ça a l’’air bien ».
- « En ce qui me concerne, c’’est d’’accord ».

Certains engagements et certaines directives ne sont pas forcément à retenir dans la mesure où la portée de leurs actions est limitée à la durée de la réunion. Par exemple : « Permettez-moi de partager mon écran », ou « Pouvez-vous voir ma fenêtre Chrome ? ». Pour tenir compte de ces cas, nous divisons les COM et les DIR en deux catégories : les COM en réunion (IM) et les DIR après réunion (PM). Les phrases classées COM-PM ou DIR-PM sont celles que nous souhaitons capturer pour l’’utilisateur en tant qu’’éléments exploitables.

Nous affinons un modèle pré-entraîné appelé RoBERTa (une variante de transformateur) sur 50 000 phrases de réunions annotées avec ces balises. La précision du modèle est d’’environ 82 % pour prédire l’’acte de parole correct lorsque le test est effectué sur un ensemble de 3 000 phrases retenues. Pour évaluer l’’objectif final d’’identification des points clés des réunions, nous avons demandé à deux annotateurs experts de baliser 12 réunions avec des étiquettes binaires, en indiquant si chaque phrase de la réunion devait être un point fort ou non. Le modèle produit une précision élevée de 88 %, c’’est-à-dire que 88 des 100 points forts prédits par le modèle étaient corrects. Le rappel, cependant, est de 42 %, ce qui signifie que plus de 50 % des faits saillants sont soit manqués par le modèle, soit ne correspondent pas à ce schéma d’’engagements ou de directives. Bien que cela laisse une grande marge d’’amélioration, ce niveau de précision élevé est très encourageant.

Autres applications

Nous n’’avons présenté que deux applications dans lesquelles les actes de parole sont utiles, mais il en existe encore de nombreux autres cas d’’utilisation dans le monde réel. Les actes de parole aident à comprendre la structure globale d’’une conversation, ce qui peut être utile pour analyser les journaux de conversation des centres d’’appels. Une récente publication visant à gérer automatiquement la politesse des phrases s’’appuie sur un classificateur d’’actes de parole pour identifier les phrases impolies, puis apporter les corrections nécessaires. Il existe également quelques ensembles de données ouverts que vous pouvez explorer, comme les corpus Switchboard et ICSI Meeting Recorder, qui contiennent des conversations annotées avec un large éventail de balises d’’actes de parole.

Chez Webex, nous rencontrons le discours conversationnel sous de multiples formes : dans nos applications d’’appel, de messagerie et de réunion, ainsi que dans nos solutions de centre de contact. Nous n’’avons fait qu’’effleurer la manière dont les modèles NLP basés sur les actes de parole peuvent aider nos clients à tirer des enseignements à partir de leurs propres données. Continuez à nous suivre pour en savoir plus sur ce sujet dans les mois à venir.

Vous souhaitez rejoindre l’’équipe MindMeld ? Écrivez-vous par e-mail à mindmeld-jobs@cisco.com.

À propos de l’’auteur

Varsha Embar est ingénieure principale en apprentissage automatique au sein de l’’équipe MindMeld de Cisco, où elle conçoit des interfaces conversationnelles au stade de production. Elle travaille à l’’amélioration de la plate-forme de traitement du langage naturel, y compris les fonctionnalités et les algorithmes pour les environnements à faibles ressources, et traite des problématiques complexes telles que le résumé et la détection des points d’’action dans les transcriptions de réunions bruyantes. Avant de rejoindre MindMeld, Varsha a obtenu une maîtrise en apprentissage automatique et en traitement du langage naturel à l’’université Carnegie Mellon.

S’’inscrire à Webex

Consultez notre page d’’accueil ou contactez-nous directement pour obtenir une assistance.

Cliquez ici pour en savoir plus sur les offres de Webex et créer un compte gratuit.