- Blog home
- >
- Visioconférences
- >
- La qualité vidéo d’entreprise de plus près
Tags: Solutions de collaboration, partager un écran
Alors que les employés du monde entier sortent de chez eux pour réintégrer le bureau, le travail « hybride » devient rapidement le nouveau mode de fonctionnement. Pour profiter du travail hybride, et ainsi rester en contact et collaborer depuis n’importe où, il est nécessaire de recourir aux toutes dernières technologies de visioconférence. Avec la pandémie, la communication vidéo est devenue essentielle et a explosé dans les foyers et en utilisation mobile. Ces environnements ont la réputation de laisser à désirer au niveau de la qualité multimédia, avec notamment une bande passante réseau faible ou variable, une luminosité médiocre, des caméras peu performantes et un bruit de fond trop présent. Pour innover afin d’améliorer l’expérience utilisateur, il est essentiel de mesurer cette perception. Cet article explique comment Cisco aborde cette problématique multidimensionnelle concernant la qualité vidéo.
Pourquoi est-il si difficile de mesurer la qualité vidéo ? Cela s’explique en partie du fait qu’il est difficile de la définir. Nous savons reconnaître une qualité médiocre, mais la vidéo peut s’avérer de mauvaise qualité pour diverses raisons : vidéo floue, pixelisée ou bruit, ou image figée, altérée ou désynchronisée.
Les systèmes de visioconférence sont également hautement adaptatifs. Les réseaux ne sont pas fiables, l’utilisation des processeurs et le contenu vidéo changent. Pour y répondre, les applications telles que Webex s’adaptent : elles modifient la résolution, ajustent la vitesse des images et collaborent avec les clients des utilisateurs finaux pour négocier des stratégies réseau optimales. De ce fait, l’expérience d’utilisation constitue une sorte de « cible mouvante ».
Mesurer la qualité des composants vidéo individuels est un processus à la fois descendant et ascendant. Descendant car nous souhaitons mesurer la totalité de ce que perçoivent les utilisateurs. Ascendant car nous souhaitons mesurer les performances et la contribution de chaque composant.
Le comportement d’un client en présence de performances réseau médiocres constitue une part importante de l’expérience utilisateur. Comme les flux vidéo contiennent des données prédites par les images précédentes, la perte de données entraîne des erreurs de réception. Différentes stratégies peuvent être adoptées. Au niveau de la couche de données, les erreurs peuvent être minimisées par la correction d’erreurs sans voie de retour (Forward Error Correction) ou par la retransmission. Les flux vidéo peuvent être redémarrés avec une nouvelle image clé. Toutes les erreurs restantes devront être dissimulées par un mélange de masquage temporel ou spatial : le masquage spatial emprunte des informations aux pixels environnants pour reconstruire les données perdues ; le masquage temporel emprunte des données aux images vidéo avoisinantes pour remplir les images perdues. Pour finir, la vitesse des données peut être réduite par l’utilisation de faibles débits binaires et de résolutions vidéo inférieures. Chacune de ces techniques présente des avantages et des inconvénients.
Si l’on considère les métriques, cette problématique est extrêmement complexe. La vidéo reçue n’est pas la même que celle qui a été transmise. L’ensemble de techniques d’optimisation adopté par les différents fournisseurs étant différent, la vidéo qu’ils affichent sera également différente. Par exemple, certains favorisent le mouvement plutôt que la netteté (ou le contraire), d’autres augmentant la latence pour permettre la retransmission. Les fournisseurs ne divulguent pas leurs méthodes d’optimisation de la qualité, car ces implémentations sont propriétaires et constituent un secret bien gardé. Mais que l’optimisation se produise côté expéditeur, durant la transmission, ou côté récepteur, la vidéo qui en résulte n’est pas conforme à sa source.
Même si elle ne présente aucune perte, elle a toutefois subi une adaptation client (suppression de bruit, super-résolution, filtrage pré et post transmission) qui varie aussi selon les fournisseurs. Avec tous ces facteurs, il est extrêmement difficile d’établir des comparaisons.
Comment, dans ce cas, mesurer la qualité ? Pour y parvenir, nous devons comprendre la différence entre les métriques FR (avec référence) et les métriques NR (sans référence).
Une métrique FR est obtenue par comparaison de la vidéo à son original. Une correspondance pixel par pixel est requise : même résolution, même fréquence d’images, chaque image en entrée correspond à chaque image en sortie. Elle est particulièrement utile lorsqu’un processus unique risque d’introduire une perte quelconque dans une entrée bien définie et que l’objectif est de minimiser cette perte.
Il existe diverses métriques FR, telles que PSNR, SSIM, MS-SSIM. Toutefois, la métrique VMAF (Video Multimethod Assessment Fusion) est très répandue et souvent considérée comme le nec-plus-ultra des méthodes. Cette méthode de test FR a été spécialement conçue par Netflix afin de réaliser des évaluations de perception de la qualité vidéo pour son service de streaming. L’utilisation de VMAF (ou de toute autre métrique FR) pour mesurer la qualité est très complexe. Comme la vidéo reçue et la vidéo source peuvent présenter de grandes différences, il est nécessaire de dimensionner, découper et synchroniser la sortie de façon à la comparer pixel par pixel à (une partie de) ce qui est transmis. Bien que cette approche ait été tentée pour comparer des fournisseurs, nous avons constaté que les manipulations requises sont fortement sujettes aux erreurs. Par ailleurs, bien que la méthode VMAF capture les différences de façon satisfaisante, elle ne saisit pas la qualité absolue. En visioconférence, il y très peu de production de films vidéo. L’expérience utilisateur est influencée par la qualité de la vidéo capturée en soi, et pas simplement par les différences entre la vidéo reçue et celle qui est capturée. Pour terminer, la métrique VMAF est uniquement spatiale: elle ne capture pas les effets temporels, et la note obtenue est seulement une moyenne des notes attribuées aux images.
Depuis quelques années, de nombreuses recherches portent sur les métriques de qualité vidéo NR (sans référence) qui visent à mesurer le niveau de qualité absolu sans recourir à une comparaison à une référence. Une métrique NR fiable et adaptée serait la solution idéale pour les applications de visioconférence, notamment en raison des adaptations et des pertes subies par les flux vidéo.
La méthode de mesure de la qualité NR NIQE (Naturalness Image Quality Evaluator) est souvent utilisée. NIQE applique un modèle statistique à une image pour évaluer la précision de la représentation d’un corpus d’images naturelles par ces statistiques. NIQE peut évaluer la qualité vidéo d’utilisateurs finaux dans toutes les circonstances, quels que soient la qualité d’image source et les pertes ou le traitement appliqué dans le pipeline vidéo.
Une métrique NR comme NIQE permet d’évaluer de façon indépendante à la fois la vidéo source et la vidéo de destination. Les pertes de qualité sont ensuite capturées dans la différence entre les résultats, ce qui permet d’évaluer des techniques d’optimisation vidéo et de récupération des pertes. La vidéo capturée pouvant être de qualité médiocre, elle peut même être améliorée par l’optimisation vidéo.
Nous avons constaté que la méthode NIQE est assez fiable, mais qu’elle ne propose pas encore certaines fonctionnalités importantes, notamment concernant la qualité temporelle.
Un des inconvénients de NIQE est qu’il est possible d’obtenir un très bon résultat NIQE lorsque la totalité du débit binaire est affectée à une image alors qu’une autre n’est pas transmise. Ce problème n’est pas spécifique aux métriques NR : comme mentionné plus haut, la méthode VMAF présente le même inconvénient puisqu’elle ne compare que les images effectivement reçues à celles qui leur correspondent.
Par conséquent, la première métrique additionnelle que nous allons envisager est la métrique DFM (Drop Frame Metric), qui calcule le nombre d’images ignorées dans une séquence et l’occurrence d’images clés utilisées pour la récupération en cas d’erreur. Dans certains cas, l’utilisation d’images clés peut générer des faux positifs dans les résultats NIQE. Par conséquent, cette mesure temporelle permet de faire la distinction entre des résultats corrects et tout faux positif.
Bien que la méthode NIQE capture de nombreux aspects de la qualité d’image, elle ne capture pas certains artefacts de compression. Nous devons également inclure une mesure de pixellisation et une mesure de flou. Les métriques FR et NIQE peuvent toutes deux omettre d’interpréter ces éléments, pourtant fréquents dans le cas de vidéos encodées.
L’utilisation des métriques FR est justifiée, en particulier pour l’évaluation des éléments de pipeline individuels. Mais les équipes de Cisco estiment que les métriques NR sont mieux adaptées pour capturer l’expérience utilisateur afin d’évaluer avec précision la qualité vidéo de bout en bout. La perception humaine est extraordinairement complexe, et il est difficile de concevoir des métriques complètes. Toutefois, ensemble, les quatre métriques suivantes capturent une grande partie de l’expérience qualité :
Sans référence (NIQE) | DFM | Pixellisation | Flou
Ensemble, ces métriques fournissent une mesure concise de la qualité subjective de la vidéo pour plusieurs dimensions différentes.
Ces métriques peuvent capturer à la fois la perte de qualité de bout en bout et l’impact de la qualité de la source. Les systèmes de visioconférence doivent souvent accepter du contenu source de qualité médiocre et recourir à diverses méthodes pour améliorer ou conserver la qualité vidéo de bout en bout. Par conséquent, les évaluations de qualité ne doivent pas reposer sur des méthodologies de mesure de la qualité FR, mais prendre en compte ces facteurs pour envisager l’expérience complète. C’est pourquoi Cisco s’attache à utiliser des métriques NR pour évaluer la qualité de bout en bout, car elles reflètent l’expérience de l’utilisateur final avec une plus grande exactitude.
Les métriques que nous avons présentées ne sont pas idéales. Elles présentent des limites, par exemple pour juger de la qualité des graphiques / du contenu synthétique, et nous développons notre approche en permanence. Bien que ce ne soit pas la voie de la facilité, nous sommes convaincus que les métriques NR constituent le meilleur cadre pour évaluer la qualité de l’expérience vidéo.
Dans la dernière version de l’application Webex, des améliorations importantes ont été apportées aux métriques de qualité des contenus multimédia. Ces améliorations concernent la qualité vidéo et audio, la suppression du bruit de fond, l’utilisation du processeur, ainsi que des innovations conçues pour le monde du travail hybride.
Cette année, nous avons constaté une amélioration significative de la qualité multimédia des solutions de tous les fournisseurs, en réponse à la pandémie. Nos tests continuels montrent que la qualité vidéo dans l’application Webex est équivalente ou surpasse celle de tous les autres fournisseurs. Dans ce marché qui reste incroyablement concurrentiel, une attention soutenue sur la qualité et les performances sont essentielles pour Cisco.
Co-auteur Thomas Davies- Ingénieur en chef
Thomas Davies est ingénieur en chef du groupe Collaboration Technology Group (CTG) de Cisco. Thomas Davies a occupé des fonctions dans le domaine des réseaux par satellites, des communications RF et de la diffusion, mais a consacré une grande partie de ses vingt années de carrière au traitement vidéo et à la compression vidéo (codecs). Travaillant pour Cisco depuis plus de 10 ans, il a contribué à la création de la nouvelle génération d’expériences de collaboration, a participé à l’élaboration de normes de compression vidéo telles que HEVC (H.265) et AV1, et a surtout joué un rôle essentiel dans la mise en œuvre de ces normes dans des produits concrets, tels que Cisco Webex.
En savoir plus
Comment toujours organiser parfaitement les visioconférences
Quoi de neuf dans Webex ? Septembre 2021
Bonnes pratiques pour utiliser les sessions scindées durant les réunions et événements virtuels