BabbleLabs – KI-basierte Audio-Magie für Cisco Webex Meetings

On By Webex Team5 Min Read

In Bezug auf das bestmögliche Videokonferenzerlebnis geht es Vielen besonders um das Visuelle. Cisco Webex Meetings ist in dieser Hinsicht definitiv ein Vorreiter in der Branche, nicht zuletzt durch seine fortschrittlichen Funktionen. wie anpassbaren Ansichten, Gesten und Reaktionen, erweiterten Video-Layouts und immersive Freigabe. Ich selbst liebe zum Beispiel lustige Hintergründe – mindestens so sehr, wie ein „Daumen hoch“-Emoji von Meeting-Teilnehmern zu bekommen. Heute möchte ich jedoch darüber sprechen, wie wichtig es ist, in Videokonferenzen durch klare, unterbrechungsfreie Sprache herausragende Audioqualität zu erzielen.

Laut Gartner werden bis 2024 nur noch 25 % aller Meetings von Angesicht zu Angesicht stattfinden. Wenn der Großteil der Meetings über Konferenzlösungen erfolgt, ist verständliche Sprache nicht nur gut – sie ist von zentraler Bedeutung. Die Leistung eines Unternehmens und seine Fähigkeit, eine diversifizierte und weit verbreitet arbeitende Mitarbeiterschaft zu beschäftigen, hängt davon ab, wie gut man einander verstehen kann. Und für das Verständnis sind Sprechen und Hören unerlässlich.

Herausforderungen bei der Entwicklung effektiver Technologien zur Sprachoptimierung

Bei der Arbeit im Büro kann es eine Herausforderung sein, Meeting-Teilnehmer bei Videokonferenzen zu verstehen. Noch schlimmer ist es, wenn man bei Lärm zu Hause auf einem Laptop mit begrenztem Netzwerkzugriff arbeitet, während das System versucht, Audiostreams über globale Netzwerke an hunderte von Kollegen zu übermitteln.

In der Vergangenheit wurde mit Algorithmen versucht, die nützlichen Informationen so aus dem Gesprochenen zu filtern, dass ein klares Audioerlebnis bei Videokonferenzen möglich und die kognitive Belastung des Menschen und die Rechenlast der elektronischen Komponenten verringert wird. Diese Algorithmen hatten Probleme mit der Menge an Geräuschen, dem Hall, der Anzahl der Sprecher, der Bandbreite und Latenzbeschränkungen. Sie rangen mit Paketverlusten und den Auswirkungen der Audiokomprimierung bei gleichzeitiger Wahrung des Datenschutzes und der Datensicherheit für die Benutzer.

Außerdem sind die in der Sprache vorhandenen Geräusche so vielfältig, dass die Entwickler solcher Algorithmen Mühe haben, klar zu definieren, welche Geräusche von der Sprache getrennt werden sollten – also was zur Sprache gehört und was nicht. Also konzentrierte man sich darauf, stationäre Geräusche zu unterdrücken, deren Amplitude und Frequenz über längere Zeit konstant bleiben, wie zum Beispiel solche von Lüftern und Motoren. Die störendsten Geräusche sind jedoch von kurzer Dauer – bellende Hunde, Hupen im Straßenverkehr, klappernde Tastaturen und das Rauschen von Hintergrundgeräuschen.  Außerdem kommt es in vielen Umgebungen, insbesondere im Homeoffice, das nicht für akustische Perfektion konzipiert wurde, zu starkem Hallen oder Echos.

Das Erreichen eines besseren Verständnis mit Cisco Webex Meeting

Heute machen Spracherkennungsmethoden mit neuronalen Netzwerken bereits einen großen Unterschied dabei aus, wie effektiv wir diese Probleme lösen können. Als Gründer und CEO von BabbleLabs – im Oktober 2020 von Cisco übernommen – arbeite ich gemeinsam mit meinem Team an der Entwicklung führender Sprachoptimierungslösungen. Wir implementieren derzeit unsere KI-basierte Audio-Magie als Teil des Webex Voice Technology-Teams. Wie machen wir das? Möglichst einfach ausgedrückt nehmen wir neuronale Netzwerkstrukturen, erfassen hunderttausende Stunden Sprache und Geräusche, zehntausende Stunden Raumakustik und erstellen daraus präzise abgestimmte Modelle zur Transformation der Sprache. Und das tun wir mit einer Latenz von lediglich 10 Millisekunden

Die Sprachoptimierung hat sich in letzter Zeit für Videokonferenzen fest etabliert. Jeder hat irgendeine Version davon, aber nicht jeder erzielt dieselben Ergebnisse. Unsere systematischen Tests zeigen, dass der Sprachoptimierungsalgorithmus von Cisco Webex Meetings der effektivste verfügbare Algorithmus für die breite kommerziele Anwendung ist. Mit demselben Qualitätstool haben wir einen Großteil der verfügbaren Videokonferenzsysteme getestet – ITU-Standard P.862, Perceptual Evaluation of Speech Quality (PESQ) und drei große Suites herkömmlicher Streams für Geräusche und Hall, eine davon von Cisco entwickelt, die anderen beiden von Microsoft. Bei sämtlichen Tests entfernte Webex mehr Geräusche und Hall und erzielte deutlich bessere Ergebnisse als aktuelle Versionen von Zoom (5.4.1) und Microsoft Teams (1.4.00.4167)

Seit der ersten Veröffentlichung dieser Sprachoptimierungstechnologie vor zwei Jahren und dank Ciscos beschleunigter Bereitstellung von Ressourcen konnten wir die Sprachqualität um mehr als das doppelte verbessern und dabei die Rechenanforderung verringern, um diese Modelle 400 Mal schneller auszuführen.


Sprachoptimierung in Konferenzsystemen

Was bringt die Zukunft im Hinblick auf die Sprachtechnologie für Cisco Webex Meetings?

Wir gehen weiterhin an die Grenzen und darüber hinaus, um höhere Leistung zu erzielen und die Rechenanforderungen weiter zu senken, um eine allgegenwärtige und problemlose Implementierung zu ermöglichen. Wir können verstehen, wer die Sprecher sind und wo sie sind und Ablenkungen in Form von Hintergrundgeräuschen aus ihrer Umgebung entfernen, während wir ihr Audio verstärken.

KI bietet uns einige leistungsstarke neue Werkzeuge, um weitere Einblicke zu gewinnen und mit geringerem Aufwand zu kommunizieren. Schon bald veröffentlichen wir intelligente neue Funktionen, die einen noch größeren Unterschied für das Verständnis machen werden, zum Beispiel:

  • Sprachoptimierung, die zwischen hörbaren Sprechern in Konferenzräumen unterscheidet: Präzise Extrahierung von Sprechern, die sich in der Nähe des Mikrofons oder weit davon entfernt befinden, so dass wir das Audio nach Bedarf unterdrücken oder verstärken können.
  • Neue Sprachoptimierungsfunktionen für Smart Devices: Neue Implementierungen und Funktionen zur Nutzung der Leistung modernster Laptops, Geräte und Smartphones.
  • Befehlserkennung durch einzigartige Sprachoptimierungs-Algorithmen: Zur Vervollständigung des umfangreichen Vokabulars des Sprachassistenten von Webex und der Transkriptionstechnologien und um eine effiziente Durchführung, hohe Genauigkeit und einfache Konfiguration für neue Befehle zu ermöglichen.

Wir leben in einer lauten Welt, aber deswegen muss noch lange nicht Ihre Produktivität leiden. Die Sprachoptimierung ist bereits seit mehr als sieben Monaten Teil von Massenbereitstellungen von Cisco Webex Meeting-Produkten. Und sie kann wesentlich mehr, als nur Geräusche zu unterdrücken – sie verbessert die Sprache und das Verständnis und erfüllt dabei Ciscos Grundanforderungen an Privatsphäre, Sicherheit und Fairness.

Möchten Sie unsere Sprachoptimierungstechnologie in Aktion hören und mehr über die Sprachoptimierungsalgorithmen von Cisco Webex Meetings erfahren?

Sehen Sie sich meinen Cisco Live-Vortrag BabbleLabs – AI Audio Wizardry an, der jetzt für alle Inhaber eines Cisco Live All Access-Passes verfügbar ist und im Frühsommer für alle anderen verfügbar gemacht wird, die sich für ein Cisco Live-Konto anmelden.

Mehr erfahren

Der Aufstieg der KI-basierten Sprachoptimierung und besseren Teamarbeit

Gesprächs-KI bei MindMeld

Neuerungen in Webex: Mai 2021

About The Author

Webex Team
Webex is a leading provider of cloud-based collaboration solutions which includes video meetings, calling, messaging, events, customer experience solutions like contact center, and purpose-built collaboration devices..
Learn more

Topics


More like this