Ein kurzer Blick auf die Videoqualität in Unternehmen

Nun, da die Mitarbeiter weltweit aus ihren Homeoffices ins Büro zurückkehren, wird die „hybride“ Arbeitsweise schnell zum neuen Modus des Arbeitens. Das hybride Arbeiten erfordert es, dass Mitarbeiter die neuesten Innovationen der Konferenztechnologien nutzen, um überall in Verbindung zu bleiben und zusammenzuarbeiten. Mit der Pandemie wurde die Videokommunikation unentbehrlich, und deren Nutzung hat im Homeoffice und auf Mobilgeräten einen enormen Zuwachs erfahren. Diese Umgebungen sind jedoch berüchtigt für die Herausforderungen, die sich hinsichtlich der Bereitstellung hochwertiger Medien stellen, z. B. bei geringer oder schwankender Netzwerkbandbreite, unzureichender Ausleuchtung und schlechten Kameras sowie Hintergrundgeräuschen. Von zentraler Bedeutung für Innovationen zur Verbesserung der Benutzererfahrung ist es daher, dass diese Erfahrung gemessen wird. In diesem Artikel wird untersucht, wie Cisco das mehrdimensionale Problem der Videoqualität angeht.

Die Messung der Videoqualität ist ein vielschichtiges und komplexes Unterfangen

Warum ist es schwierig, die Videoqualität zu messen? Teilweise, weil es schwer ist, sie zu definieren. Wir erkennen schlechte Qualität, wenn wir sie sehen, aber Videos können in vielerlei Hinsicht schlecht sein: Sie sind unscharf, zeigen Blockartefakte oder Rauschen, Frames frieren ein, sind fehlerhaft oder nicht synchron. Videokonferenzsysteme sind außerdem hochgradig adaptiv. Netzwerke sind unzuverlässig, die CPU-Auslastung schwankt, Videoinhalte ändern sich. Anwendungen wie Webex reagieren darauf durch Veränderung der Auflösung, Anpassung der Bildraten und die Zusammenarbeit mit Endbenutzer-Clients, um optimale Netzwerkstrategien auszuhandeln. Aus all diesen Gründen haben wir es auf der Empfängerseite mit einem schwer bestimmbaren „Moving Target“, einem beweglichen Ziel, zu tun. Die Messung der Qualität einzelner Videokomponenten ist ein Top-Down- und ein Bottom-Up-Prozess. Top-Down, weil wir die Gesamtheit dessen messen möchten, was Benutzer erleben. Bottom-Up, weil wir messen möchten, wie jede einzelne Komponente arbeitet und welchen Beitrag sie leistet.

Qualitäts- und Netzwerkverlust

Die Benutzererfahrung wird wesentlich davon beeinflusst, wie sich ein Client bei schlechten Netzwerkbedingungen verhält. Da Videostreams Daten enthalten, die aus vorangehenden Frames prognostiziert werden, führt Datenverlust zu Fehlern beim Empfänger. Hierfür können unterschiedliche Strategien verfolgt werden. Auf der Datenebene können Fehler durch den Einsatz von Fehlerkorrektur bei der Weiterleitung oder erneute Übertragung minimiert werden. Videostreams können mit einem neuen Keyframe neu gestartet werden. Alle verbleibenden Fehler müssen durch eine Mischung aus zeitlicher oder räumlicher Verdeckung verborgen werden: Die räumliche Fehlerverdeckung übernimmt Informationen umgebender Pixel, um verlorene Daten wiederherzustellen. Die zeitliche Fehlerverdeckung übernimmt Daten aus nahe gelegenen Videoframes, um verlustbehaftete Frames aufzufüllen. Und schließlich kann die Datenrate reduziert werden, indem niedrigere Bitraten und geringere Videoauflösungen verwendet werden. Jede dieser Techniken steht sowohl für Kosten als auch für Vorteile. Aus messtechnischer Perspektive ist dies extrem anspruchsvoll. Das empfangene Video stimmt nicht mit dem übertragenen Video überein. Von den verschiedenen Anbietern werden unterschiedliche Optimierungstechniken verwendet. Daher wird auch ein Video von verschiedenen Anbietern unterschiedlich angezeigt, weil beispielsweise bei einem die Bewegung gegenüber der Schärfe begünstigt wird und beim nächsten umgekehrt und beim dritten die Latenz erhöht wird, um eine erneute Übertragung zu ermöglichen. Anbieter veröffentlichen ihre Methoden der Qualitätsoptimierung nicht, da es sich um proprietäre Implementierungen handelt, die als Geschäftsgeheimnis behandelt werden. Unabhängig davon, ob die Optimierung auf der Senderseite, während der Übertragung oder auf der Empfängerseite erfolgt – das resultierende Video weicht von seiner Quelle ab. Auch wenn kein Verlust auftritt, gibt es immer noch Client-Anpassung: Rauschunterdrückung, Superauflösung, Vor- und Nachfilterung, die sich ebenfalls von Anbieter zu Anbieter unterscheiden. All diese Faktoren machen einen echten Vergleich extrem schwierig.

Referenzierte Metriken versus referenzfreie Metriken

Wie lässt sich Qualität unter solchen Umständen überhaupt messen? Um dies zu verstehen, müssen wir den Unterschied zwischen Metriken mit vollständiger Referenz versus Metriken ohne Referenz kennen. Bei einer vollständig referenzierten Metrik muss das Video mit dem Original verglichen werden. Sie erfordert eine pixelgenaue Entsprechung: dieselbe Auflösung, dieselbe Bildrate, jeder Frame muss mit einem Ausgabeframe abgeglichen werden. Dieses Verfahren ist dann am nützlichsten, wenn ein einzelner Prozess bei einer klar definierten Eingabe einen gewissen Verlust verursachen kann. Das Ziel besteht dabei darin, diesen Verlust zu minimieren.

VMAF – Vollständig referenziertes Testen

Es gibt verschiedene Metriken mit vollständiger Referenz, wie PSNR, SSIM, MS-SSIM. Eine sehr beliebte Metrik, die vielfach als Stand der Technik angesehen wird, ist VMAF (Video Multimethod Assessment Fusion). Diese Testmethode wurde von Netflix speziell entwickelt, um für den eigenen Video-Streaming-Dienst eine wahrnehmungsbasierte Bewertung der Videoqualität durchzuführen. Die Verwendung von VMAF – oder einer beliebigen vollständig referenzierten Metrik – zur Messung der Qualität stellt eine große Herausforderung dar. Da das empfangene Video stark vom Quellvideo abweichen kann, muss die Ausgabe skaliert, zugeschnitten und synchronisiert werden, damit man es Pixel für Pixel (teilweise) mit dem übertragenen Bild vergleichen kann. Es wurde zwar versucht, diesen Ansatz für den Vergleich von Anbietern zu nutzen, die erforderlichen Manipulationen bedingen unserer Erfahrung nach jedoch eine hohe Fehleranfälligkeit. Darüber hinaus erfasst VMAF zwar sehr gut die Unterschiede, es erfasst jedoch nicht die absolute Qualität. Bei Videokonferenzen liegen keine teuer produzierten Filmvideos vor. Die Benutzererfahrung hängt auch von der Qualität des aufgenommenen Videos als solchem ab, nicht nur davon, wie sehr sich das empfangene Video von dem aufgenommenen unterscheidet. Und schließlich ist VMAF eine rein räumliche Metrik: VMAF erfasst keine zeitbezogenen Effekte, und das Ergebnis bildet nur den Durchschnitt der Frame-Ergebnisse ab.

NIQE – Testen ohne Referenz

In den letzten Jahren wurde andererseits viel zu referenzfreien Videoqualitätsmetriken geforscht, mit denen versucht wird, ohne Vergleich mit einer Referenz das absolute Qualitätsniveau zu messen. Falls sich eine adäquate, zuverlässige referenzfreie Metrik finden ließe, wäre sie wegen der Anpassungen und Verluste, die bei Videostreams auftreten, ideal für Konferenzanwendungen geeignet. Eine beliebte referenzfreie Qualitätsmetrik ist NIQE (Naturalness Image Quality Evaluator). NIQE passt ein statistisches Modell an ein Bild an, um zu ermitteln, wie genau die Statistik einem Korpus natürlicher Bilder entspricht. Mit NIQE lässt sich die Videoqualität beim Endbenutzer in jeder Situation bewerten, unabhängig von der Bildqualität der Quelle oder den Verlusten oder Bearbeitungen innerhalb der Videopipeline. Eine referenzfreie Metrik wie NIQE kann genutzt werden, um sowohl das Quell- als auch das Zielvideo unabhängig voneinander zu bewerten. Qualitätsverluste werden dann als Differenz der Ergebnisse erfasst, was die Bewertung von Techniken zur Verlustkorrektur und Videooptimierung ermöglicht. Da ein aufgenommenes Video von schlechter Qualität sein kann, kann die Ausgangsqualität durch Videooptimierung sogar noch verbessert werden. Nach unserer Erfahrung ist NIQE recht zuverlässig, es fehlen aber noch einige wichtige Funktionen. Insbesondere wird die zeitbezogene Qualität noch nicht berücksichtigt.

Verbesserung von NIQE: Zusätzliche Metriken

Eine Einschränkung von NIQE besteht darin, dass man potenziell einen sehr guten NIQE-Wert erzielen kann, indem man die gesamte Bitrate einem Frame zuweist, ohne jemals einen weiteren zu senden. Dies ist kein spezifisches Problem referenzfreier Metriken: Wie bereits erwähnt, tritt bei der Verwendung von VMAF dasselbe Problem auf, da nur die tatsächlich empfangenen Frames mit den entsprechenden Quellframes verglichen werden können. Daher sehen wir uns als erste zusätzliche Metrik DFM (Drop Frame Metric) an. Diese Metrik berechnet die Anzahl der ausgelassenen Frames in einer Sequenz und das Vorhandensein von Keyframes, die als Methode der Fehlerbehebung genutzt werden. Die Verwendung von Keyframes kann bei NIQE in einigen Fällen zu falsch-positiven Ergebnissen führen. Daher ermöglicht diese zeitbezogene Messung eine Unterscheidung zwischen exakten und falsch-positiven Ergebnissen. Auch wenn NIQE viele Aspekte der Bildqualität erfasst, werden einige Kompressionsartefakte nicht erfasst. Aus diesem Grund beziehen wir auch eine Messung der Blockbildung und der Unschärfe mit ein. Sowohl referenzielle Metriken als auch die NIQE-Metriken interpretieren diese Elemente, die bei codiertem Video üblich sind, möglicherweise nicht.

Cisco bevorzugt referenzfreie Tests

Referenzielle Metriken haben ihre Vorteile, insbesondere wenn es um die Bewertung einzelner Pipelineelemente geht. Cisco vertritt jedoch die Ansicht, dass für eine exakte Bewertung der durchgängigen Videoqualität referenzfreie Metriken die Benutzererfahrung am besten erfassen. Die menschliche Wahrnehmung ist außerordentlich komplex. Es ist daher schwierig, umfassende Metriken zu entwickeln. Die folgenden vier Metriken erfassen gemeinsam aber einen wesentlichen Teil der Qualitätserfahrung: Referenzfrei (NIQE) | DFM | Blockbildung | Unschärfe Zusammen bieten sie eine präzise Messung der subjektiven Videoqualität über mehrere verschiedene Dimensionen hinweg. Diese Metriken können sowohl den Qualitätsverlust zwischen den Endpunkten als auch die Auswirkungen der eigentlichen Quellqualität erfassen. Konferenzsysteme müssen häufig Quellinhalte von geringer Qualität annehmen und verschiedene Methoden anwenden, um die Videoqualität zwischen den Endpunkten zu verbessern oder aufrechtzuerhalten. Daher sollten Qualitätsbewertungen nicht auf referenziellen Methoden der Qualitätsmessung basieren, sondern diese Faktoren bei der Bewertung der End-to-End-Erfahrung berücksichtigen. Cisco konzentriert sich deshalb auf die Verwendung referenzfreier Metriken für die End-to-End-Qualität, da sie die Benutzererfahrung genauer abbilden.

Kontinuierlicher Fokus von Cisco auf Video- und Gesamtqualität

Die angesprochenen Metriken sind nicht perfekt. Sie haben einige Einschränkungen, beispielsweise bei der Beurteilung der Qualität von Grafiken/künstlicher Inhalte, und wir entwickeln unseren Ansatz kontinuierlich weiter. Aber auch wenn dies der schwierigere Weg ist, sind wir überzeugt, dass referenzfreie Metriken das beste Framework für die Bewertung der erlebten Videoqualität bieten. In der neuesten Version der Webex App wurden erhebliche Verbesserungen sämtlicher Kennzahlen für die Medienqualität erzielt. Diese Verbesserungen betreffen die Videoqualität, die Audioqualität, die Unterdrückung von Hintergrundgeräuschen, die CPU-Auslastung sowie Innovationen für die hybride Arbeitswelt. In Reaktion auf die Pandemie hat sich in diesem Jahr die Medienqualität der Lösungen aller Anbieter deutlich verbessert. Unsere kontinuierlichen Tests ergeben, dass die Webex App eine Videoqualität bietet, die die jedes anderen Anbieters erreicht oder übertrifft. Der Markt ist nach wie vor unglaublich umkämpft, und der Fokus auf Qualität und Leistung bildet für Cisco weiterhin einen Schwerpunkt.

Weitere Informationen zur hybriden Arbeit mit Webex Meetings

Mitautor Thomas Davies – Principal Engineer Thomas Davies ist Principal Engineer bei der Cisco Collaboration Technology Group (CTG). Thomas Davies hat in den Bereichen Satellitennetzwerke, HF-Kommunikation und Rundfunk gearbeitet, hat jedoch den größten Teil seiner über 20-jährigen Karriere der Videoverarbeitung und Videokomprimierung (Codecs) gewidmet. Er arbeitet seit über 10 Jahren bei Cisco an der Entwicklung der nächsten Generation der Collaboration-Erfahrungen. Er hat an der Entwicklung von Videokomprimierungsstandards wie HEVC (H.265) und AV1 mitgewirkt und war auch maßgeblich an der Implementierung dieser Standards in reale Produkte beteiligt, z. B. in Cisco Webex. Weitere Informationen So richten Sie Videokonferenzen immer perfekt ein Neuerungen in Webex: September 2021 Bewährte Verfahren für die Nutzung von Teilgruppen-Sitzungen bei virtuellen Events und Veranstaltungen