Wie unser Streben nach umfassender Audio-/Video-KI die Zukunft der Zusammenarbeit fördert

On By Chris Rowen6 Min Read
Person working from their laptop at a coffee shop
Webex arbeitet kontinuierlich an Innovationen für das hybride Arbeiten. Unser Team nutzt künstliche Intelligenz und Deep Learning-Methoden, um außergewöhnliche Zusammenarbeit zu ermöglichen. Dabei werden Audio und Video, Übersetzungen sowie Abschriften verbessert und die automatische Unterstützung erweitert. Mit unserem KI-Ansatz können sich Benutzer gesehen, gehört und geschätzt fühlen, unabhängig davon, ob sie von zu Hause, vom Büro oder von unterwegs aus arbeiten. Wir haben unsere KI-Plattform mit dem Ziel entwickelt, einen integrativen Ansatz für die Zusammenarbeit zu bieten, der die Teilnahme von Menschen aus der ganzen Welt ermöglicht, unabhängig von Sprache, Geschlecht oder Alter. Sie können mehr über diesen Ansatz in unserem kürzlich veröffentlichten Cisco’s Responsible AI Framework lesen. Hier werden Governance-, Prozess- und Bildungsmaßnahmen beschrieben, die wir ergreifen, um Voreingenommenheiten, die durch Algorithmen oder Datensätzen entstehen können, zu reduzieren oder sogar ganz zu beseitigen. Webex hat eine einzigartige Position und kann integrierte sowie sichere Zusammenarbeit über unsere Geräte, Desktops, Laptops, Smartphones und auch über neu entwickelte Geräteformate hinweg anbieten. Unsere Vision ist es, eine Erfahrung zu bieten, die so gut ist wie persönliche Anwesenheit – oder sogar besser. Unser KI-Ansatz sorgt für mehr Verständnis, weniger Ermüdung und höhere Benutzerfreundlichkeit. Wir konzentrieren uns auf den Einsatz von KI, damit die Kommunikation zwischen Teilnehmern deutlicher wird und alle besser auf die individuellen Bedürfnisse der Teilnehmer eingehen können. Bei Webex haben wir unsere KI-Funktionen so konzipiert, dass wir die Zusammenarbeit als Ganzes betrachten können und nicht auf typische KI-bezogene Technologiesilos zurückfallen.

Für das komplexe hybride Arbeitsumfeld

Unser Ziel ist es, die Intelligenz des maschinellen Lernens auf Audio, Video und natürliche Sprache anzuwenden, sodass die Anpassungsfähigkeit der Endbenutzer steigt und im komplexen hybriden Arbeitsumfeld gedeihen kann.

Integrativer Ansatz für die Zusammenarbeit

Unsere ML-Modelle werden mit großen, vielfältigen Datensätzen trainiert, um eine breite Palette von Sprachen und Akzenten für Sprache und demografische Daten zum Zweck der Computervision erkennen zu können.

Datenschutz und Sicherheit im Mittelpunkt

Unsere Technologiearchitektur bietet von Haus aus einen privaten und sicheren Ansatz für maschinelle Lernberechnungen, da die Verarbeitung in erster Linie auf den Laptops und Geräten der Endbenutzer erfolgt und diese nicht in die Cloud übertragen werden. Durch diesen Edge-Computing-Ansatz für KI-Technologie wird die Sicherheit von Medienbeständen und Daten automatisch verbessert. Der Ansatz von Webex für die KI-Entwicklung basiert auf Cisco’s Data Trust Principles.

Zusammenarbeit mit geringer Latenz

Der Edge-zentrierte Ansatz ermöglicht außerdem schnelle Reaktionen, da Medien innerhalb von wenigen Millisekunden verarbeitet werden können, während bei der Verarbeitung über die Cloud sehr unterschiedliche Latenz entsteht. Außerdem sind unsere Algorithmen so konzipiert, dass sie auf verschiedene Prozessortypen, Energiebudgets und Betriebssysteme skaliert werden können, sodass von überall aus gearbeitet werden kann.

Optimierte Zusammenarbeit auf Webex-Geräten

Die KI-Technologien von Webex werden im Hintergrund ausgeführt, wodurch ein besseres Gesamterlebnis entsteht. Sie sind direkt in Webex-Telefone, -Desktops und -Konferenzraumgeräte integriert.

Möglichkeiten für kontinuierliche Innovation

Die umfassende und auf Zusammenarbeit ausgerichtete KI-Architektur von Webex bereichert das Medienerlebnis und schafft neue Möglichkeiten zur schnellen Anpassung an neue Anwendungsfälle und kundenspezifische Domänen.

Der KI-gestützte Ansatz von Webex zur Analyse und Rekonstruktion von Medienstreams

Analyse und Rekonstruktion von Medienstreams

Abbildung 1: KI-gestütztes Audioverarbeitungsmodell Webex

Webex-Kunden vertrauen auf unser Portfolio, um von überall aus zusammenarbeiten zu können. Unser Ansatz besteht darin, die Gegebenheiten bei Teilnehmern unabhängig von ihrer Umgebung zu erkennen und dann KI und maschinelles Lernen (ML) zu nutzen, um eingehende Audio- oder Videodaten in segmentierte, datenreiche Streams abzutrennen. Eine derart detaillierte Extraktion wichtiger Komponenten war bisher in weit verbreiteter Echtzeit-Kommunikationssoftware nicht möglich.

1. ML-gestützte Dekomposition

Bei der Dekomposition wird ein eingehender Audiostream aufgespalten:
  • Vorder- und Hintergrundsprecher werden identifiziert, indem der Abstand eines Sprechers zum Mikrofon auf Grundlage der Lautstärke und des Nachhalls beim Sprechen geschätzt wird.
  • Audioereignisse werden erkannt, einschließlich bestimmter Tonauslöser oder Schlüsselwörter.
  • Der Nachhall, das subtile Echo einer Stimme im Raum, wird abgespalten und kann angepasst werden, um das Gesprochene zu verdeutlichen.
  • Hintergrundmusik wird in einen eigenen Stream abgespalten, sodass ihre Lautstärke bei der Neuzusammensetzung angepasst werden kann.
  • Hintergrundgeräusche werden abgespalten und können auch Elemente aus der Umgebung enthalten, die je nach Anwendungsfall angepasst werden können.

2. Audiokomponenten pro Benutzer

Sobald die Datenstreams voneinander getrennt sind, fassen wir sie zu Audiokomponenten pro Benutzer zusammen, sodass wir den Audiostream aller Teilnehmer einzeln auswählen, verändern oder Aktionen dafür ausführen können.

3. ML-gestützte Neuzusammensetzung

Je nach Anwendungsfall können wir einzelne Datenstreams wieder zum für andere freigegebenen Audiomaterial zusammenfügen. Mit diesem Ansatz können wir verschiedene Anwendungsfälle abdecken und vielfältige Anforderungen erfüllen. Mit der Webex Smart Audio-Funktion können Teilnehmer beispielsweise auswählen, ob alle Hintergrundgeräusche (Geräusche entfernen), alle Sprach- und anderen Geräusche im Hintergrund (Für meine Stimme optimieren) entfernt werden sollen oder der Originalton wiedergegeben werden soll, wenn Sie ein Instrument spielen oder singen (Musikmodus).

4. Gerendertes Audio

Der daraus resultierende Audiostream wird anderen Teilnehmern in einer Form übermittelt, die mit weniger Anstrengung einfacher zu verstehen ist.

Rechnerischer Vorteil für neue Anwendungsfälle

Unsere KI-Architektur ist auf Zusammenarbeit ausgerichtet, so können wir die Medien in einem einzigen Rechenzyklus voneinander trennen, statt den Medienstream mehrfach durch verschiedene Modelle verarbeiten zu müssen. Dieser Ansatz erhöht die Gesamteffizienz des Prozesses und sorgt für geringe Latenz. Außerdem können wir dem Streamberechnungszyklus problemlos neue Komponenten hinzufügen, was neue Nutzungsszenarien mit einem umfassenderen Bild des Eingangsstreams ermöglichen kann. Der Webex-Ansatz zur Verarbeitung von Medienstreams lässt sich auf folgende Bereiche ausweiten:

Spracherkennung für besseres Verständnis

Wir können zwischen Sprechern und Geräuschen unterscheiden, zwischen verschiedenen Sprechern, die mehr oder weniger nah am Mikrofon sind, und sogar den Raumnachhall anpassen. All diese Elemente werden als separate Streams identifiziert, was mehr Flexibilität bei der Erfüllung spezifischer Benutzeranforderungen ermöglicht. Wir können diese Streams einzeln auswählen, ändern und bearbeiten sowie neue Audiostreams aus ausgewählten Audiokomponenten rekonstruieren. Bei einem Anruf kann es beispielsweise sinnvoll sein, die Lautstärke der Sprecher im Vorder- oder Hintergrund anzugleichen, während bei einem anderen Anruf nur der Sprecher hervorgehoben werden soll, der sich am nächsten am Mikrofon befindet. Wir können auch Audioereignisauslöser wie „OK Webex“ erkennen oder andere Umgebungsgeräusche hervorheben, die für einen Teilnehmer wichtig sein können.

Computervision für erweiterte Möglichkeiten bei Videostreams

Durch unseren Medienstreamansatz können wir Videoszenen besser verstehen und Elemente neu zusammensetzen, um die Videoqualität zu verbessern. So können wir beispielsweise Teilnehmer vom Hintergrund unterscheiden und verwendete Gesten ausmachen. Wir können das Video rendern, indem wir diese separaten Streams auswählen und ändern, um die Sicht der anderen Teilnehmer auf den Moderator zu optimieren und Ablenkungen zu minimieren. Dieser Ansatz eröffnet eine Welt der Möglichkeiten und erleichtert Teilnehmern die Zusammenarbeit auch in schwierigen Umgebungen.

Webex Assistant für bessere Zusammenarbeit

Webex Assistant bietet Sprachsteuerung für die Zusammenarbeit, proaktive Intelligenz sowie Abschriften und Übersetzungen. Diese Funktionen sind auf eine Weise implementiert, durch die wir einen größeren Teil der Spracherkennung auf dem Gerät verarbeiten können, was die Genauigkeit erhöht und die Latenz im Vergleich zu standardmäßigen cloudbasierten Systemen vierfach reduziert. Webex Assistant bietet außerdem APIs mit Webex Assistant-Fähigkeiten, sodass Entwickler von Drittanbietern neue Funktionen hinzufügen und eine Verbindung zu ihren Anwendungen mit Sprachsteuerung herstellen können. Wir haben die Anzahl der unterstützten Sprachen für Abschriften sowie Übersetzungen erweitert und sogar zusätzliche Sprachen für Geräte hinzugefügt, darunter Englisch (bereits zuvor vorhanden), Deutsch, Französisch, Spanisch und Japanisch.

Computervision zur Überwindung von 3D-Grenzen

Computervision ermöglicht die Identifizierung der räumlichen Umgebung in einem Videostream. Der Webex-Ansatz für 3D soll hauptsächlich die kognitive Belastung für Moderatoren und Teilnehmer verringern, anstatt sie mit AR-/VR-Headsets in einen vollständig virtuellen Raum zu versetzen. So können wir beispielsweise genaue 3D-Modelle extrahieren und anpassen. Des Weiteren können wir auch die Gesichtsgeometrie der Teilnehmer scannen, um Bildverbesserung und Personalisierung zu ermöglichen. Der KI-Ansatz von Webex ermöglicht Teams eine flexiblere Zusammenarbeit und erweitert die Möglichkeiten zur Teilnahme an Meetings. Das robuste KI-gestützte Modell zur Verarbeitung von Medienstreams bietet heute eine erstklassige Erfahrung für die Zusammenarbeit und eröffnet neue Möglichkeiten auch in Zukunft.

Möchten Sie sich selbst vom Unterschied überzeugen, den KI-Technologie bei der Zusammenarbeit ermöglicht? Kontaktieren Sie uns noch heute für eine Demo.

Weitere Informationen Entwicklung verantwortungsbewusster KI-Systeme Die neuesten KI-Funktionen von Webex für die Zukunft der Arbeit Bessere Erfahrungen bei der Arbeit und für Kunden in einer hybriden Arbeitswelt

About The Author

Chris Rowen
Chris Rowen Cisco
Chris is a Silicon Valley entrepreneur and technologist known for his groundbreaking work developing RISC microprocessors, domain-specific architectures and deep learning-based software.
Learn more

Topics


More like this