Una mirada a la calidad de vídeo empresarial

El modo de trabajo “híbrido” se está convirtiendo rápidamente en el nuevo modo de funcionamiento a medida que los empleados del mundo salen de sus hogares y regresan a la oficina. El trabajo híbrido requiere que las personas aprovechen las últimas innovaciones en tecnologías de conferencias para permanecer conectadas y colaborar donde sea que estén. La pandemia hizo que la comunicación por vídeo fuera fundamental y aumentó, en gran medida, el uso de dispositivos móviles y en el hogar. Estos entornos son conocidos por presentar desafíos para la entrega de medios de alta calidad, como un ancho de banda de red bajo o variable, iluminación y cámaras deficientes, y ruido de fondo. La medición de la experiencia del usuario es fundamental para innovar y mejorarla. En este artículo, se analiza cómo Cisco aborda este problema multidimensional de la calidad de vídeo.

Medir la calidad del vídeo es una tarea polifacética y compleja

¿Por qué es difícil medir la calidad del vídeo? En parte, porque definirla es difícil. Reconocemos la mala calidad cuando la vemos, pero el vídeo puede ser malo de muchas maneras diferentes: débil, fragmentado o con ruido; con fotogramas congelados o corruptos, o fuera de sincronización. Los sistemas de videoconferencia también son muy adaptables. Las redes son poco confiables, el uso de la CPU y el contenido de los vídeos cambian. En respuesta, las aplicaciones como Webex se adaptarán cambiando la resolución, ajustando la tasa de fotogramas y colaborando con los clientes finales para negociar estrategias de red óptimas. Esto hace que lo que se experimenta sea un objetivo móvil. Medir la calidad individual de los componentes de vídeo es un proceso de lo general a lo particular y de lo particular a lo general. De lo general a lo particular porque queremos medir la experiencia de los usuarios en forma total. De lo particular a lo general porque queremos medir cómo funciona cada componente y cuál es su contribución.

Pérdida de calidad y red

Una parte importante de la experiencia del usuario es cómo se comporta un cliente cuando hay malas condiciones de red. Debido a que las transmisiones de vídeo contienen datos que se predicen a partir de fotogramas anteriores, la pérdida de datos provoca errores en el receptor. Se pueden adoptar diferentes estrategias. En el nivel de datos, los errores pueden minimizarse utilizando la corrección de errores hacia adelante o la retransmisión. Las transmisiones de vídeo pueden reiniciarse con un nuevo fotograma clave. Los errores que queden tendrán que ocultarse mediante alguna mezcla de ocultación temporal o espacial: la ocultación espacial toma prestada la información de los píxeles circundantes para reconstruir los datos perdidos; la ocultación temporal toma prestados los datos de los fotogramas de vídeo cercanos para rellenar los fotogramas perdidos. Por último, la tasa de datos puede reducirse utilizando tasas de bits más bajas y resoluciones de vídeo menores. Cada una de estas técnicas tiene costos y beneficios. Desde el punto de vista de las métricas, esto es un gran desafío. El vídeo que se recibe no es el mismo que el que se transmite. El conjunto de técnicas de optimización adoptado por los distintos proveedores es diferente, por lo que el vídeo que muestren los distintos proveedores será diferente, por ejemplo, favoreciendo el movimiento sobre la nitidez o viceversa o aumentando la latencia para permitir la retransmisión. Los proveedores no comparten sus métodos de optimización de la calidad porque son implementaciones propias y constituyen su “fórmula secreta”. Independientemente de si la optimización se produce en el lado del emisor, durante la transmisión, o en el lado del receptor, el vídeo resultante se ha desviado de su origen. Incluso cuando no hay pérdidas, sigue habiendo adaptación del cliente: eliminación de ruido, superresolución, prefiltrado y posfiltrado, que también es diferente entre los proveedores. Todos estos factores dificultan enormemente las comparaciones.

Las métricas de referencia completa frente a las métricas sin referencia

Entonces, ¿cómo se puede medir la calidad en tales circunstancias? Para entenderlo, debemos comprender la diferencia entre las métricas de referencia completa y sin referencia. Una métrica de referencia completa es aquella en la que es necesario comparar el vídeo con un original. Requiere una correspondencia píxel a píxel: la misma resolución, la misma tasa de fotogramas, cada fotograma de entrada emparejado con un fotograma de salida. Es muy útil cuando un solo proceso puede introducir alguna pérdida en una entrada bien definida, cuando el objetivo es minimizar esa pérdida.

VMAF: prueba de referencia completa

Existen varias métricas de referencia completa como PSNR, SSIM, MS-SSIM, pero una métrica muy popular, a menudo, considerada de vanguardia, es la fusión de evaluación de múltiples métodos de vídeo o VMAF. Este método de prueba de referencia completa fue diseñado específicamente por Netflix para llevar a cabo evaluaciones de la calidad perceptiva del vídeo para su servicio de transmisión de vídeo. Utilizar la fusión de evaluación de múltiples métodos de vídeo —o cualquier métrica de referencia completa— para medir la calidad es muy difícil. Dado que el vídeo recibido y el de origen pueden ser muy diferentes, es necesario escalar, recortar y sincronizar la salida para poder compararla píxel a píxel con lo transmitido (o parte de ello). Según nuestra experiencia, aunque este enfoque se ha intentado en las comparaciones de proveedores, las manipulaciones necesarias son muy propensas a errores. Además, aunque la fusión de evaluación de múltiples métodos de vídeo capta bien las diferencias, no capta la calidad absoluta. En conferencias, no tenemos vídeos de películas de producción costosa. La experiencia del usuario se ve influida por la calidad del propio vídeo capturado, no solo por la diferencia entre el vídeo recibido y el capturado. Por último, la fusión de evaluación de múltiples métodos de vídeo es una métrica solo espacial: no captura los efectos temporales, y la puntuación es solo un promedio de las puntuaciones de los fotogramas.

NIQE: pruebas sin referencia

Asimismo, en los últimos años, se ha investigado mucho sobre las métricas de calidad de vídeo sin referencia que intentan medir el nivel de calidad absoluto sin comparación con una referencia. Si se puede encontrar una métrica sin referencia adecuada y confiable, sería ideal para aplicaciones de conferencias debido a las adaptaciones y pérdidas que experimentan las transmisiones de vídeo. Una métrica de calidad sin referencia muy popular es el evaluador de calidad de imagen natural o NIQE. El evaluador de calidad de imagen natural ajusta un modelo estadístico a una imagen para ver hasta qué punto las estadísticas son representativas de un corpus de imágenes naturales. El evaluador de calidad de imagen natural puede puntuar la calidad de vídeo de los usuarios finales en cualquier situación, independientemente de la calidad de la imagen de origen y de cualquier pérdida o procesamiento a lo largo de la cadena de vídeo. Una métrica sin referencia como el evaluador de calidad de imagen natural puede utilizarse para evaluar tanto el vídeo de origen como el de destino de forma independiente. Las pérdidas de calidad se recogen en la diferencia de puntuaciones, lo que permite evaluar las técnicas de recuperación de pérdidas y optimización de vídeo. Dado que el vídeo capturado puede ser de mala calidad, la optimización del vídeo incluso puede mejorarlo. Según nuestra experiencia, el evaluador de calidad de imagen natural es bastante confiable, pero aún le faltan algunas características importantes. En particular, todavía no aborda la calidad temporal.

Aumento del evaluador de calidad de imagen natural: métricas adicionales

Una de las limitaciones del evaluador de calidad de imagen natural es que potencialmente se podría obtener una muy buena puntuación asignando toda la tasa de bits a un fotograma y no enviando nunca otro. Este no es un problema específico de las métricas sin referencia: como se mencionó, el uso de la fusión de evaluación de múltiples métodos de vídeo tiene el mismo problema ya que solo se pueden comparar los fotogramas que realmente se reciben con aquellos a los que corresponden. La primera métrica adicional que consideramos, por lo tanto, es la métrica de pérdida de fotogramas o DFM. Esta métrica calcula la cantidad de fotogramas perdidos en una secuencia y la aparición de fotogramas clave que se utilizan como método de recuperación de errores. En algunos casos, el uso de fotogramas clave puede dar resultados falsos positivos en la puntuación del evaluador de calidad de imagen natural. Por lo tanto, esta medición temporal permite distinguir entre los resultados precisos y los falsos positivos. Aunque el evaluador de calidad de imagen natural capta muchos aspectos de la calidad de la imagen, no capta algunos artefactos de compresión. En consecuencia, también incluimos una medida de bloqueo y una medida de desenfoque. Tanto la métrica de referencia completa como la del evaluador de calidad de imagen natural pueden fallar en la interpretación de estos elementos, que son comunes al vídeo codificado.

La preferencia de Cisco por las pruebas sin referencia

Las métricas de referencia completa tienen su lugar, sobre todo para evaluar los elementos individuales del proceso. No obstante, Cisco cree que para evaluar con precisión la calidad del vídeo de extremo a extremo, las métricas sin referencia son las que mejor capturan la experiencia del usuario. La percepción humana es muy compleja, y diseñar métricas exhaustivas es difícil, pero las siguientes cuatro métricas juntas capturan una parte importante de la experiencia de calidad: Si referencia (NIQE) | DFM | Bloqueo | Desenfoque En conjunto, proporcionan una medida concisa de la calidad subjetiva del vídeo en varias dimensiones diferentes. Estas métricas pueden capturar tanto la calidad perdida de extremo a extremo como el impacto de la propia calidad de la fuente. Los sistemas de conferencia, a menudo, deben aceptar contenidos de origen de baja calidad y utilizar diversos métodos para mejorar o mantener la calidad del vídeo de extremo a extremo. Por eso, las evaluaciones de calidad no deben basarse en las metodologías de medición de la calidad de referencia completa, sino que deben tener en cuenta estos factores al considerar la experiencia de extremo a extremo. Por lo tanto, Cisco se centra en el uso de métricas sin referencia para la calidad de extremo a extremo, ya que refleja con mayor precisión la experiencia del usuario final.

El enfoque continuo de Cisco en la calidad del vídeo y la calidad en general

Las métricas de las que hablamos no son perfectas. Hay algunas limitaciones, por ejemplo, a la hora de evaluar la calidad de los contenidos gráficos/sintéticos, y estamos desarrollando continuamente nuestro enfoque. Pero aunque es el camino más difícil, estamos convencidos de que las métricas sin referencia son el mejor marco para evaluar la calidad del vídeo. En la última versión de la aplicación Webex, se consiguieron mejoras significativas en todas las métricas de calidad de los medios. Estas mejoras incluyen la calidad de vídeo, la calidad de audio, la eliminación del ruido de fondo, la utilización de la CPU, así como innovaciones diseñadas para el mundo del trabajo híbrido. En respuesta a la pandemia, hemos visto que la calidad de los medios de todas las soluciones de los proveedores mejoró significativamente este año. Nuestras pruebas constantes demuestran que la aplicación Webex proporciona una calidad de vídeo que iguala o supera la de cualquier otro proveedor. Sigue siendo un mercado muy competitivo, y el enfoque en la calidad y el rendimiento está en primer lugar y sigue siendo un objetivo para Cisco.

Obtenga más información sobre el trabajo híbrido con Webex Meetings

Coautor Thomas Davies, ingeniero principal Thomas Davies es ingeniero principal de Collaboration Technology Group (CTG) de Cisco. Thomas ha trabajado en redes de satélite, comunicaciones por radiofrecuencia y radiodifusión, pero ha dedicado la mayor parte de sus más de veinte años de carrera al procesamiento y la compresión de vídeo (códecs). Lleva más de diez años trabajando para Cisco en la creación de la próxima generación de experiencias de colaboración, y ha contribuido a los estándares de compresión de vídeo como HEVC (H.265) y AV1, pero también ha sido fundamental en las implementaciones de esos estándares en productos reales, como Cisco Webex. Más información Cómo lograr la configuración adecuada de las reuniones de vídeo en todo momento Novedades de Webex: Septiembre de 2021 Mejores prácticas para aprovechar las sesiones de subgrupo durante las reuniones y los eventos virtuales