- Blog home
- >
- Engineering
- >
- Verwendung von Sprechakten für Gesprächs-KI
Tags: künstliche Intelligenz
Dies ist ein begleitender Blogbeitrag zu meinem Vortrag auf der REWORK-Konferenz am 28. April 2021. Die Folien zum Vortrag finden Sie hier.
Natürliches Sprachverständnis (Natural Language Understanding, NLU) ist eine Schlüsselkomponente in jedem Gesprächs-KI-System. In einem aufgabenorientierten Dialogsystem besteht NLU in der Regel aus Klassifikatoren, mit denen die Absichten des Benutzers und die vorhandenen Slots oder Entitäten erkannt werden. Der Dialogmanager nutzt diese Ergebnisse, um den richtigen Dialogstatus auszuwählen und geeignete Maßnahmen zu ergreifen, um die Anfrage des Benutzers zu erfüllen. In einigen Fällen kann die Absicht nicht eindeutig erkannt werden, oder die Kenntnis der Absicht und der in der Anfrage des Benutzers vorhandenen Entitäten reicht nicht aus, damit der Dialogmanager die optimalen Maßnahmen ergreifen kann. Schauen wir uns zum Beispiel einmal die folgende Interaktion eines Benutzers mit einem Bot auf der Website eines Bekleidungshändlers an:
Der Benutzer beginnt die Interaktion mit einem Gruß, gefolgt von einer Frage nach einem bestimmten Produkt. In diesen beiden Fällen reichen die erkannte Absicht und die Slots aus, damit der Bot dem Benutzer erfolgreich eine intelligente, sinnvolle Empfehlung aussprechen kann. Das Problem entsteht, wenn der Benutzer als Antwort auf die Empfehlung seinen Eindruck von dem Produkt äußert. Welcher Absicht sollen solche Anfragen zugeordnet und welche Entitäten sollen erkannt werden? Normalerweise wird dem Benutzer in solchen Situationen eine Eingabeaufforderung angezeigt, die das Gespräch wieder auf konkret umsetzbare Aspekte lenken soll, beispielsweise: „Das habe ich nicht verstanden. Wenn Sie weitere Optionen sehen möchten, sagen Sie: ‚Mehr anzeigen.‘“
Das ist für den Benutzer zwar nicht sonderlich schlimm, aber wir können den Bot intelligenter machen, indem wir dem NLU-System ein zusätzliches Klassifikatormodul hinzufügen, das Sprechakte oder Dialogakte erkennen soll.
Sprechakte erfassen bei jeder Äußerung im Rahmen eines Gesprächs den Kontext und die Absicht des Benutzers. Diese Absichten unterscheiden sich von den üblichen Dialogabsichten, insofern sie allgemeiner sind. Beispielsweise können die Fragen „Was kostet das?“ und „Wie wird das Wetter heute?“ den Absichten „KOSTEN_ABRUFEN“ bzw. „WETTER_ABRUFEN“ zugeordnet werden, es handelt sich allerdings um denselben Sprechakt: „FRAGE“ bzw. „W-FRAGE“, wenn man mehr ins Detail gehen möchte. Die Literatur verwendet unterschiedliche Klassifizierungssysteme für Sprechakte, und wir können die Untergruppe verwenden, die für unsere Zwecke geeignet ist. Wenn Sie genauer wissen möchten, wie diese Kennzeichnungen aussehen können, schauen Sie sich die SWBD-DAMSL-Klassifizierung an, die mit 42 Kennzeichnungen sehr umfangreich ist.
Im oben vorgestellten Beispieldialog zwischen einem Benutzer und einem Bot könnten wir die Sprechaktkennzeichnungen „BEGRÜSSUNG“ (oder „GESPRÄCHSEINSTIEG“), „FRAGE“ und „MEINUNG-NEGATIV“ für die drei Benutzeranfragen verwenden. Jetzt, wo wir wissen, dass die letzte Äußerung des Benutzers eine negative Meinung über die Marke ausgedrückt hat (die als dem Entitätstyp „Kategorie“ zugehörig markiert ist), kann der Dialogmanager die Liste der Empfehlungen filtern, um Optionen aus der Kategorie, die dem Benutzer nicht gefällt, auszuschließen.
Bei einer weiteren interessanten Anwendungsmöglichkeit von Sprechakten, mit der wir experimentiert haben, nutzen wir sie, um Highlights eines Meetings herauszufiltern. Anders als bei der Zusammenfassung von Zeitungsartikeln, einem Problem, das bereits eingehend untersucht wurde, ist es schwierig, eine auszugsweise Zusammenfassung eines Meetings (z. B. die Highlights des Meetings) zu erstellen, weil es schwierig ist, an kommentierte Daten zu kommen. Was als Highlight gilt, ist ziemlich subjektiv. So stehen für einen Ingenieur beispielsweise die Einzelheiten der Implementierung, die im Meeting besprochen wurde, im Mittelpunkt, während ein Produktmanager diese Feinheiten möglicherweise gar nicht wissen muss. Diese Subjektivität und die sensible Natur von Meeting-Daten machen es schwer, kommentierte Daten zu finden, um ein Modell zu trainieren.
Die Literatur und interne Umfragen haben gezeigt, dass am ehesten dahingehend Einigkeit herrscht, dass Aktionselemente und die Nachbereitung zu den wichtigen Punkten in einem Meeting gehören. Davon ausgehend haben wir uns vor allem darauf konzentriert, umsetzbare Elemente in Meetings zu erkennen. Im Folgenden sehen Sie einige Beispiele für umsetzbare Elemente. Es scheint zwei übergeordnete Kategorien zu geben, wie Aktionselemente ausgedrückt werden: Ein Sprecher sagt eine Handlung zu oder ein Sprecher erteilt einen Befehl. Diese Beobachtung macht Sprechakte zur idealen Lösung für dieses Problems.
Um diese Aufgabe zu erfüllen, verwenden wir die folgende Klassifizierung von Sprechakten:
Einige Zusagen und Anweisungen müssen nicht unbedingt aufgenommen werden, weil der Handlungsumfang auf die Dauer des Meetings beschränkt ist. Beispiel: „Ich gebe meinen Bildschirm frei“ oder „Können Sie mein Chrome-Fenster sehen?“ Um mit solchen Fällen umgehen zu können, müssen wir die ZUS und die ANW weiter in die Klassen „im Meeting“ (IM) und „nach dem Meeting“ (NM) unterteilen. Sätze, die als ZUS-NM oder ANW-NM klassifiziert werden, sind diejenigen, die wir als umsetzbare Elemente für die Benutzer erfassen möchten.
Wir haben das vorab mit 50.000 Sätzen aus Meetings, die mit diesen Kennzeichnungen kommentiert waren, trainierte Modell RoBERTa (vom Typ „Transformer“) weiter angepasst. Das Modell wies bei einem Test mit 3.000 geäußerten Sätzen eine Genauigkeit von etwa 82 % bei der Vorhersage des richtigen Sprechakts auf. Um das endgültige Ziel, wichtige Punkte in Meetings zu identifizieren, zu bewerten, haben wir zwei Kommentierungsexperten gebeten, zwölf Meetings mit binären Kennzeichnungen zu versehen, ob die einzelnen Sätzen in den Meetings als Highlights gelten sollten oder nicht. Das Modell weist eine hohe Genauigkeit von 88 % auf, d. h., 88 von 100 vom Modell vorhergesagten Highlights waren richtig. Die Trefferquote lag jedoch bei 42 %, d. h., mehr als 50 % der Highlights wurden entweder vom Modell übersehen oder passten nicht in das Schema aus Zusagen und Anweisungen. Auch wenn hier noch viel Raum für Verbesserungen bleibt, ist die hohe Genauigkeit ermutigend.
Wir haben hier nur zwei Anwendungen vorgestellt, bei denen Sprechakte hilfreich sind, es gibt aber noch viele weitere reale Anwendungsfälle. Sprechakte helfen, die übergeordnete Struktur eines Gesprächs zu verstehen, die bei der Analyse von Gesprächsprotokollen aus Callcentern hilfreich sein kann. Eine aktuelle Veröffentlichung, die sich damit beschäftigte, wie man Sätze automatisch höflich formulieren kann, verwendete einen Klassifikator für Sprechakte, um unhöfliche Sätze zu erkennen und dann die erforderlichen Korrekturen vorzunehmen. Es gibt auch einige offene Datasets, die Sie sich anschauen können, beispielsweise den Switchboard-Korpus und den ICSI Meeting Recorder-Korpus. Beide enthalten Gespräche, die mit den unterschiedlichsten Kennzeichnungen für Sprechakte versehen wurden.
Bei Webex kommen viele verschiedene Formen von Konversationen vor: in unseren Anruf-, Messaging- und Meeting-Anwendungen ebenso wie in unseren Contact Center-Lösungen. Wir haben gerade erst begonnen zu verstehen, wie auf Sprechakten basierende NLP-Modelle unseren Kunden helfen können, Erkenntnisse aus ihren eigenen Daten zu gewinnen. In den kommenden Monaten werden wir uns weiter mit diesem Thema beschäftigen, also bleiben Sie dran.
Möchten Sie im MindMeld-Team mitarbeiten? Senden Sie eine E-Mail an mindmeld-jobs@cisco.com!
Varsha Embar ist leitende Ingenieurin für maschinelles Lernen im MindMeld Team bei Cisco und entwickelt Konversationsschnittstellen auf der Produktionsebene. Sie arbeitet an der Verbesserung der zentralen NLP(Natural Language Processing)-Plattform, beispielsweise an Funktionen und Algorithmen für Situationen mit wenigen Ressourcen, und sie beschäftigt sich mit schwierigen Fragen wie der Zusammenfassung und Erkennung von Aktionselementen in Abschriften von lauten Meetings. Bevor Sie zu MindMeld kam, hat Varsha an der Carnegie Mellon University ihren Master in maschinellem Lernen und NLP gemacht.
Besuchen Sie unsere Homepage oder kontaktieren Sie uns direkt, wenn Sie Unterstützung benötigen.
Klicken Sie hier, um mehr über die Angebote von Webex zu erfahren und sich für ein kostenloses Konto anzumelden.