La modalità di lavoro “ibrida” sta diventando rapidamente la nuova modalità operativa man mano che i dipendenti di tutto il mondo escono da casa e tornano in ufficio. Il lavoro ibrido richiede alle persone di utilizzare le ultimissime innovazioni nel campo delle tecnologie di conferenza per rimanere connessi e collaborare ovunque si trovano. La pandemia ha reso la comunicazione video essenziale, con un enorme aumento dell’uso di dispositivi in-home e mobili. È noto che per trasmettere contenuti multimediali di alta qualità in questi ambienti occorre affrontare diversi problemi, come larghezza di banda di rete scarsa o variabile, illuminazione e videocamere scadenti e rumori di fondo. È quindi fondamentale per l’innovazione che mira a migliorare l’esperienza utenti, misurare tale esperienza. Nel presente articolo viene spiegato l’approccio di Cisco a questo problema multi-dimensionale di qualità video.
Misurazione della qualità video, un’attività complessa e dalle mille sfaccettature
Perché misurare la qualità video è difficile? In parte perché definirla è difficile. Sappiamo che la qualità è scadente quando la vediamo, ma la qualità video può essere scadente in molti diversi modi: debole, a intermittenze o rumorosa, frame bloccati o danneggiati oppure mancanza di sincronizzazione. I sistemi di videoconferenza sono anche altamente adattivi. Le reti non sono affidabili, l’uso di CPU e contenuto video cambiano. Di conseguenza, applicazioni come Webex si adatteranno cambiando la risoluzione, regolando la velocità di trasmissione e collaborando con i client degli utenti finali per negoziare strategie di rete ottimali. Questo significa che l’esperienza da misura cambia continuamente. La misurazione della qualità di singoli componenti video è un processo dall’alto verso il basso e un processo dal basso verso l’alto. Dall’alto verso il basso perché desideriamo misurare l’intera esperienza dell’utente. Dal basso verso l’alto perché desideriamo misurare le prestazioni e il contributo di ogni componente.Perdita di qualità e di rete
Una parte importante dell’esperienza dell’utente è come un client si comporta in caso di condizioni di rete scadenti. Poiché i flussi video contengono dati predetti da fotogrammi precedenti, la perdita di dati causa errori di ricezione. Possono essere adottate diverse strategie. A livello di dati, gli errori possono essere ridotti al minimo utilizzando la funzionalità FEC (Forward Error Correction) o la ritrasmissione. I flussi video possono essere riavviati con un nuovo fotogramma chiave. Eventuali errori restanti dovranno essere nascosti da una combinazione di occultamento temporale o spaziale: l’occultamento spaziale prende in prestito informazioni da pixel circostanti per ricreare i dati persi; l’occultamento temporale prende in prestito dati da fotogrammi video nelle vicinanze per riempire i fotogrammi persi. Infine, la velocità dati può essere ridotta utilizzando velocità in bit e risoluzioni video più basse. Ciascuna di queste tecniche ha costi e vantaggi. Dal punto di vista delle metriche, questo è estremamente complesso. Il video ricevuto non è uguale al video trasmesso. Il pacchetto di tecniche di ottimizzazione adottato da fornitori diversi è differente e, quindi, il video visualizzato da fornitori diversi sarà differente, ad esempio, favorendo il movimento rispetto alla nitidezza o viceversa oppure aumentando la latenza per consentire la ritrasmissione. I fornitori non condividono i propri metodi di ottimizzazione della qualità perché sono implementazioni proprietarie e rappresentano la loro “ricetta segreta”. Indipendentemente dal fatto che l’ottimizzazione si verifichi sul lato mittente, durante la trasmissione o sul lato ricevente, il video risultante è diverso dal video originale. Anche quando non esiste alcuna perdita, si verifica comunque un adattamento del client: denoising, super risoluzione, pre e post filtraggio, che variano a seconda del fornitori. Tutti questi fattori rendono il confronto su basi paritarie estremamente difficile.Metriche con riferimento completo rispetto a metriche senza riferimento
In che modo, quindi, la qualità può essere misurata in tali circostanze? Per capire, dobbiamo comprendere la differenza tra metriche con riferimento completo (FR, Full Reference) e metriche senza riferimento (NR, No Reference). Una metrica con riferimento completo è una metrica in cui è necessario confrontare il video con l’originale. Richiede una corrispondenza pixel per pixel: stessa risoluzione, stessa velocità di trasmissione, ogni fotogramma di input deve corrispondere a un fotogramma di output. È più utile quando un singolo processo può introdurre una qualche perdita in un input ben definito, dove lo scopo è ridurre al minimo tale perdita.VMAF – Test con riferimento completo
Esistono diverse metriche FR come PSNR, SSIM, MS-SSIM, ma una metrica molto popolare, spesso considerata all’avanguardia, è la metrica VMAF o Video Multimethod Assessment Fusion. Questo metodo di test FR è stato progettato in modo specifico da Netflix per eseguire valutazioni di qualità video percettive per il proprio servizio di streaming video. L’uso della metrica VMAF, o di qualsiasi metrica FR, per misurare la qualità è molto complesso. Poiché il video ricevuto e il video di origine possono essere abbastanza diversi, è necessario modificare in scala, ritagliare e sincronizzare l’output in modo che possa essere confrontato pixel per pixel con quanto viene trasmesso (o parte di questo). Nella nostra esperienza, sebbene questo approccio sia stato tentato nei confronti tra fornitori, le manipolazioni richieste sono altamente soggette a errore. Inoltre, sebbene la metrica VMAF acquisisca differenze, non acquisisce la qualità assoluta. Nelle conferenze, non si usano filmati prodotti con costi elevati. L’esperienza utente è influenzata dalla qualità del video acquisito, non solo dalle differenze tra video ricevuto e video di origine. Infine, la metrica VMAF è una metrica esclusivamente spaziale: non acquisisce effetti temporali e il punteggio è solo una media dei punteggi di fotogrammi.NIQE – Test senza riferimento
In alternativa, negli ultimi anni è stata effettuata una vasta ricerca sulle metriche di qualità di video senza riferimento che tentano di misurare il livello di qualità assoluta senza alcun confronto con un riferimento. Se fosse possibile trovare una metrica NR adatta e affidabile, tale metrica sarebbe ideale per le applicazioni di conferenza a causa degli adattamenti e delle perdita che i flussi video subiscono. Una metrica di qualità NR comune è la metrica NIQE (Naturalness Image Quality Evaluator). La metrica NIQE adatta un modello statistico a un’immagine per vedere quanto la statistica è rappresentativa di un corpo di immagini naturali. La metrica NIQE può assegnare un punteggio alla qualità video degli utenti finali in qualsiasi situazione, indipendentemente dalla qualità dell’immagine di origine e da perdite o elaborazione lungo la pipeline video. Una metrica NR come NIQE può essere utilizzata per valutare video di origine e di destinazione in modo indipendente. Le perdite di qualità vengono quindi acquisite nella differenza di punteggi, consentendo di valutare tecniche di recupero delle perdite e ottimizzazione del video. Poiché il video acquisito può essere di qualità scadente, l’ottimizzazione video può persino migliorarlo. La nostra esperienza dimostra che la metrica NIQE è abbastanza affidabile, ma ancora priva di alcune caratteristiche importanti. In particolare, non risolve ancora i problemi di qualità temporale.Potenziamento della metrica NIQE: metriche aggiuntive
Una limitazione della metrica NIQE è che potenzialmente potresti ottenere un buon punteggio NIQE allocando tutta la velocità in bit a un fotogramma e non inviando mai un altro fotogramma. Questo non è un problema specifico delle metriche NR: come menzionato, utilizzando la metrica VMAF si verifica lo stesso problema, perché puoi solo confrontare i fotogrammi che sono effettivamente ricevuti con quelli a cui corrispondono. La prima metrica aggiuntiva da considerare, quindi, è la DFM o Drop Frame Metric. Questa metrica calcola il numero di fotogrammi rilasciati in una sequenza e l’occorrenza di fotogrammi chiave usata come metodo di recupero degli errori. In alcuni casi, l’uso di fotogrammi chiave può restituire risultati falsi positivi nel punteggio NIQE. Pertanto, questa misurazione temporale consente di distinguere tra risultati accurati e falsi positivi. Sebbene la metrica NIQE acquisisca molti aspetti della qualità dell’immagine, non acquisisce alcune risorse di compressione. Quindi, includiamo anche una misurazione blocco e una misurazione di sfocatura. Entrambe le metriche, FR e NIQE, possono interpretare in modo errato questi elementi, che sono comuni nel video codificato.Test senza riferimento è la preferenza di Cisco
Le metriche FR hanno il loro perché, in particolare nella valutazione di singoli elementi della pipeline. Tuttavia, Cisco crede che per valutare accuratamente la qualità video end-to-end, le metriche NR acquisiscano meglio l’esperienza dell’utente. La percezione umana è straordinariamente complessa e progettare metriche complete è difficile, ma le seguenti quattro metriche insieme acquisiscono una parte significativa dell’esperienza di qualità: NR (NIQE) | DFM | Blocco | Sfocatura Insieme, queste metriche forniscono una misurazione concisa della qualità video soggettiva attraverso diverse dimensioni differenti. Tali metriche possono acquisire sia la qualità persa end-to-end e l’impatto della qualità di origine stessa. I sistemi di conferenza devono spesso accettare contenuti di origine di bassa qualità e utilizzare diversi metodi per migliorare o mantenere la qualità video dall’inizio alla fine. Come tali, le valutazioni della qualità non si devono basare su metodologie di misurazione della qualità FR, ma devono tenere presenti questi fattori quando si considera l’esperienza end-to-end. Pertanto, Cisco si concentra sull’uso di metriche NR per qualità end-to-end, perché riflettono più accuratamente l’esperienza degli utenti finali.Attenzione continua di Cisco a qualità video e qualità in generale
Le metriche di cui abbiamo parlato non sono perfette. Esistono alcune limitazioni, ad esempio nel valutare la qualità di contenuti grafici/sintetici, e stiamo sviluppando continuamente il nostro approccio. Ma sebbene questa sia la strada più difficile, siamo convinti che le metriche NR sono la migliore struttura per la valutazione della qualità video. Nell’ultima release dell’app Webex, sono stati raggiunti importanti miglioramenti di tutte le metriche di qualità dei contenuti multimediali. Questi miglioramenti includono qualità video, qualità audio, rimozione dei rumori di fondo, utilizzo delle CPU nonché innovazioni concepite per il mondo del lavoro ibrido. In risposta alla pandemia, la qualità dei contenuti multimediali delle soluzioni di tutti i fornitori sul mercato è significativamente migliorata quest’anno. I nostri continui test dimostrano che l’app Webex fornisce qualità video che soddisfa o supera la qualità garantita da qualsiasi altro fornitore. È un mercato incredibilmente competitivo e l’attenzione a qualità e prestazioni è in primo piano e continua a essere una priorità per Cisco.Ulteriori informazioni sul lavoro ibrido con Webex MeetingsCo-autore Thomas Davies- Principal Engineer Thomas Davies è un Ingegnere capo del Collaboration Technology Group (CTG) di Cisco. Thomas ha lavorato nel campo delle reti satellitari, delle comunicazioni RF e delle trasmissioni, ma ha dedicato la maggior parte della sua carriera di oltre 20 anni a elaborazione video e compressione video (codec). Ha lavorato in Cisco per oltre 10 anni alla creazione della prossima di generazione di esperienze di collaborazione e ha contribuito a standard di compressione video come HEVC (H.256) e AV1, ma è stato anche fondamentale nell’implementazione di tali standard nei prodotti effettivi, come Cisco Webex. Ulteriori informazioni Come trovare la configurazione giusta per la riunione video ogni volta Novità di Webex: settembre 2021 Procedure consigliate per trarre vantaggio dalle sessioni interattive durante riunioni ed eventi virtuali