Uma olhada na qualidade de vídeo empresarial

On By Mike Paget9 Min Read
A look at enterprise video quality
O modo “híbrido” de trabalho está rapidamente se tornando o novo modo de operação, conforme os funcionários do mundo todo emergem de suas casas e voltam para o escritório. O trabalho híbrido requer que as pessoas aproveitem as últimas inovações em tecnologias de conferência para permanecer conectadas e colaborar onde quer que estejam. A pandemia tornou a comunicação por vídeo essencial, com enormes aumentos no uso doméstico e móvel. Esses ambientes são notórios por apresentarem desafios para fornecer mídia de alta qualidade, como largura de banda de rede baixa ou variável, iluminação e câmeras deficientes e ruído de fundo. O fundamental para inovar para melhorar a experiência do usuário é medir essa experiência. Este artigo explora como a Cisco aborda esse problema multidimensional para qualidade de vídeo.

Medir a qualidade do vídeo é um empreendimento multifacetado e complexo

Por que é difícil medir a qualidade do vídeo? Em parte porque é difícil definir. Reconhecemos a má qualidade quando o vemos, mas o vídeo pode ser ruim de muitas maneiras diferentes: suave, ou fragmentada, ou ruidosa; quadros congelando ou corrompidos, ou fora de sincronia. Os sistemas de videoconferência também são altamente adaptáveis. As redes não são confiáveis, o uso da CPU e o conteúdo do vídeo mudam. Em resposta, aplicativos como o Webex se adaptarão alterando a resolução, ajustando as taxas de quadros e colaborarão com os clientes usuários finais para negociar estratégias de rede ideais. Isso torna o que está sendo experimentado um alvo móvel. Medir a qualidade dos componentes de vídeo individuais é um processo de cima para baixo e de baixo para cima. De cima para baixo porque queremos medir a totalidade da experiência dos usuários. De baixo para cima, porque queremos medir o desempenho de cada componente e qual é sua contribuição.

Qualidade e perda de rede

Uma parte importante da experiência do usuário é como um cliente se comporta quando há más condições de rede. Como os streams de vídeo contêm dados previstos de quadros anteriores, a perda de dados causa erros no receptor. Diferentes estratégias podem ser adotadas. Na camada de dados, os erros podem ser minimizados usando a Correção de erro de encaminhamento ou retransmissão. Os streams de vídeo podem ser reiniciados com um novo quadro-chave. Quaisquer erros que permanecerem precisarão ser ocultados por alguma mistura de ocultação temporal ou espacial: a ocultação espacial pega emprestado informações dos pixels circundantes para reconstruir os dados perdidos. A ocultação temporal toma emprestados dados de quadros de vídeo próximos para preencher os quadros perdidos. Finalmente, a taxa de dados pode ser reduzida usando taxas de bits mais baixas e resoluções de vídeo menores. Cada uma dessas técnicas tem custos e benefícios. Do ponto de vista da métrica, isso é extremamente desafiador. O vídeo recebido não é igual ao vídeo transmitido. O pacote de técnicas de otimização adotado por diferentes fornecedores é diferente e, portanto, o vídeo exibido por diferentes fornecedores será diferente, por exemplo, favorecendo o movimento em vez da nitidez ou vice-versa ou aumentando a latência para permitir a retransmissão. Os fornecedores não compartilham seus métodos de otimização de qualidade porque são implementações proprietárias e constituem seu “molho secreto”. Independentemente de a otimização ocorrer no lado do remetente, durante a transmissão ou no lado do receptor, o vídeo resultante divergiu de sua fonte. Mesmo quando não há perda, ainda há adaptação do cliente: redução de ruído, superresolução, pré e pós-filtragem, que também é diferente entre os fornecedores. Todos esses fatores tornam as comparações extremamente difíceis.

Métricas de referência completa X Métricas sem referência

Como, então, a qualidade pode ser medida em tais circunstâncias? Para entender isso, precisamos entender a diferença entre as métricas de referência completa (FR) e sem referência (NR). Uma métrica FR é aquela em que é necessário comparar o vídeo com um original. Requer uma correspondência pixel a pixel: mesma resolução, mesma frequência de quadros, cada quadro de entrada combinado com um quadro de saída. É mais útil quando um único processo pode introduzir alguma perda em uma entrada bem definida, onde o objetivo é minimizar essa perda.

VMAF – teste de referência completa

Existem várias métricas de FR, como PSNR, SSIM, MS-SSIM, mas uma métrica muito popular, geralmente considerada de última geração, é Video Multimethod Assessment Fusion ou VMAF. Este método de teste FR foi projetado especificamente pela Netflix para conduzir avaliações de qualidade de vídeo perceptual para seu serviço de streaming de vídeo. Usar VMAF (ou qualquer métrica FR) para medir a qualidade é muito desafiador. Como o vídeo recebido e o de origem podem ser bem diferentes, é necessário dimensionar, cortar e sincronizar a saída para que possa ser comparada pixel a pixel com (parte) do que é transmitido. Em nossa experiência, embora essa abordagem tenha sido tentada em comparações de fornecedores, as manipulações necessárias são altamente sujeitas a erros. Além disso, embora o VMAF capture bem as diferenças, ele não captura a qualidade absoluta. Em conferências, não temos vídeos de filmes produzidos de maneira cara. A experiência do usuário é influenciada pela qualidade do próprio vídeo capturado, não apenas pela diferença entre o vídeo recebido e o capturado. Finalmente, o VMAF é uma métrica apenas espacial: não captura efeitos temporais e a pontuação é apenas uma média das pontuações de quadros.

NIQE – Teste sem referência

Como alternativa, tem sido feita muita pesquisa nos últimos anos em métricas de qualidade de vídeo sem referência que tentam medir o nível de qualidade absoluto sem comparação com uma referência. Se uma métrica NR adequada e confiável puder ser encontrada, ela seria ideal para aplicações de conferência por causa das adaptações e perdas que os fluxos de vídeo experimentam. Uma métrica de qualidade NR popular é o Naturalness Image Quality Evaluator ou NIQE. O NIQE ajusta um modelo estatístico a uma imagem para ver o quão próximo as estatísticas são representativas de um corpus de imagens naturais. O NIQE pode pontuar a qualidade de vídeo dos usuários finais em qualquer situação, independentemente da qualidade da imagem de origem e quaisquer perdas ou processamento ao longo do canal de vídeo. Uma métrica NR como o NIQE pode ser usada para avaliar o vídeo de origem e de destino de forma independente. As perdas de qualidade são então capturadas na diferença das pontuações, permitindo que as técnicas de recuperação de perdas e otimização de vídeo sejam avaliadas. Como o vídeo capturado pode ser de baixa qualidade, a otimização do vídeo pode até melhorá-lo. Nossa experiência é que o NIQE é bastante confiável, mas ainda não possui alguns recursos importantes. Em particular, ainda não trata da qualidade temporal.

Aumento do NIQE: métricas adicionais

Uma limitação do NIQE é que potencialmente você poderia obter uma pontuação NIQE muito boa alocando toda a taxa de bits para um quadro e nunca enviando outro. Este não é um problema específico para as métricas NR: como mencionado, usar o VMAF tem o mesmo problema, pois você só pode comparar os quadros que são realmente recebidos com aqueles aos quais eles correspondem. A primeira métrica adicional que consideramos, portanto, é a Drop Frame Metric ou DFM. Essa métrica calcula o número de quadros perdidos em uma sequência e a ocorrência de quadros-chave usados como método de recuperação de erro. Em alguns casos, o uso de quadros-chave pode dar resultados falso-positivos na pontuação do NIQE. Portanto, esta medição temporal permite distinguir entre resultados precisos e quaisquer falsos positivos. Embora o NIQE capture muitos aspectos da qualidade da imagem, ele não captura alguns artefatos de compactação. Portanto, também incluímos uma medida de bloqueio e uma medida de desfoque. Ambas as métricas FR e NIQE podem deixar de interpretar esses elementos, que são comuns ao vídeo codificado.

Preferência da Cisco por testes sem referência

As métricas de FR têm seu lugar, especialmente na avaliação de elementos de pipeline individuais. Mas a Cisco acredita que, para avaliar com precisão a qualidade do vídeo de ponta a ponta, as métricas sem referência capturam melhor a experiência do usuário. A percepção humana é extraordinariamente complexa e projetar métricas abrangentes é difícil, mas as quatro métricas a seguir juntas capturam uma parte significativa da experiência de qualidade: Sem referência (NIQE) | DFM | Bloqueio | Desfoque Juntas, elas fornecem uma medição concisa da qualidade subjetiva do vídeo em várias dimensões diferentes. Essas métricas podem capturar a qualidade perdida de ponta a ponta e o impacto da própria qualidade da fonte. Os sistemas de conferência geralmente aceitam conteúdo de origem de baixa qualidade e usam vários métodos para melhorar ou manter a qualidade do vídeo de ponta a ponta. Como tal, as avaliações de qualidade não devem se basear em metodologias de medição de qualidade de FR, mas levar em conta esses fatores ao considerar a experiência de ponta a ponta. Portanto, a Cisco foca no uso de métricas sem referência para qualidade de ponta a ponta, já que reflete com mais precisão a experiência do usuário final.

O foco contínuo da Cisco na qualidade e qualidade geral do vídeo

As métricas que discutimos não são perfeitas. Existem algumas limitações, por exemplo, no julgamento da qualidade dos gráficos/conteúdo sintético, e estamos continuamente desenvolvendo nossa abordagem. Mas embora seja o caminho mais difícil, estamos convencidos de que as métricas sem referência são a melhor estrutura para avaliar a qualidade de vídeo experimentada. Na versão mais recente do aplicativo Webex, melhorias significativas em todas as métricas de qualidade de mídia foram alcançadas. Essas melhorias incluem qualidade de vídeo, qualidade de áudio, supressão de ruído de fundo, utilização de CPU, bem como inovações projetadas para o mundo do trabalho híbrido. Em resposta à pandemia, vimos a qualidade da mídia de todas as soluções do fornecedor melhorar significativamente este ano. Nossos testes contínuos mostram que o aplicativo Webex oferece qualidade de vídeo que atende ou excede a de qualquer outro fornecedor. Ele continua a ser um mercado incrivelmente competitivo, e o foco na qualidade e no desempenho está na vanguarda e continua sendo um foco para a Cisco.
Saiba mais sobre o trabalho híbrido com Webex Meetings
Coautor Thomas Davies – Engenheiro principal Thomas Davies é engenheiro principal no Grupo de tecnologia de colaboração da Cisco (CTG). Thomas trabalhou em redes de satélite, comunicações RF e transmissão, mas passou a maior parte de sua carreira de mais de 20 anos em processamento de vídeo e compressão de vídeo (codecs). Ele trabalhou para a Cisco por mais de 10 anos, trabalhando na criação da próxima geração de experiências de colaboração e contribuiu para padrões de compressão de vídeo como HEVC (H.265) e AV1, mas também foi fundamental na implementação desses padrões em produtos reais, como o Cisco Webex. Saiba mais Como obter sempre a configuração certa para videoconferências O que há de novo no Webex: Setembro de 2021 Melhores práticas para aproveitar as sessões de breakout durante reuniões e eventos virtuais

About The Author

Mike Paget Sr. Manager, Technical Marketing for Cloud Collaboration, Contact Center, & Competitive Analysis Cisco
Michael has spent nearly 20 years working with video technologies in live production, broadcasting, and video conferencing.
Learn more

Topics


More like this