Da quando abbiamo lanciato Webex Assistant nel 2020, la domanda più comune che abbiamo ricevuto dai nostri clienti è: “È accurato?” e quindi ho capito; i clienti vogliono essere sicuri che se scelgono di usare il motore di trascrizione automatica basato su intelligenza artificiale di Webex, tale motore manterrà la promessa di una registrazione accurata della riunione, consentendo ai partecipanti alla riunione di concentrarsi sulla conversazione anziché prendere appunti, e renderà le riunioni più inclusive attraverso funzioni di accessibilità. Esistono così tanti esempi di casi in cui l’intelligenza artificiale ha promesso molto e offerto poco, per questo motivo per attività fondamentali per le aziende Webex ha fatto passi da gigante per garantire un’incessante attenzione all’accuratezza.
Mentre il mondo passa a un modello di lavoro ibrido, funzioni come sottotitoli codificati, trascrizione e registrazione delle azioni da intraprendere sono diventate più importanti che mai per offrire esperienze di riunione inclusive e della stessa qualità per tutti, indipendentemente dalla lingua parlata dagli utenti, dalle esigenze di accessibilità che potrebbero avere o dal fatto che scelgono di saltare una riunione a causa della loro vita frenetica e affidarsi a Webex Assistant per ottenere un riepilogo della riunione. Il nostro obiettivo è sfruttare intelligenza artificiale e apprendimento automatico per offrire un’esperienza di riunione migliore a tutti.
Sviluppare motori di trascrizione basati su intelligenza artificiale all’avanguardia è un modo per raggiungere tale obiettivo.
Considerato l’investimento che Webex ha fatto nello sviluppo di solide pipeline di apprendimento automatico, formazione ed etichettatura end-to-end, siamo orgogliosi di poter utilizzare queste basi per rilasciare un motore di trascrizione in inglese che offre un livello di accuratezza leader del settore per l’esperienza di riunione Webex rispetto ad altri motori di riconoscimento vocale best-in-class disponibili sul mercato. Nel tentativo di espandere la portata della nostra tecnologia per coprire più del 98% di clienti Webex nel mondo, rilasceremo motori di riconoscimento vocale automatico (ASR, Automatic Speech Recognition) in spagnolo, francese e tedesco, sviluppati interamente in-house, che verranno offerti gratuitamente a tutti gli utenti di Webex Assistant nella prima metà di quest’anno.
Ma cosa significa davvero il termine “accurato”?
Quando pensiamo a una trascrizione accurata di una conversazione, spesso immaginiamo che se avessimo una persona addetta alla trascrizione che ascolta il file audio, la trascrizione rifletterebbe ogni singola parola detta. Tuttavia, per vedere le cose nella giusta prospettiva, la percentuale di errore umano è stata misurata su alcuni dei set di dati più comuni, come “CallHome”, e il risultato migliore ottenuto fino ad ora è una percentuale di errore pari al 6,8%; il che significa che se tu avessi una trascrizione di 100 parole, circa 7 di tali parole sarebbero trascritte in modo non accurato da un essere umano. È anche importante dire che “CallHome” è un set di dati costituito da conversazioni telefoniche di 30 minuti senza copione tra madrelingua inglese. [1] Si prevede che la percentuale di errore per un set di dati basato su conversazioni tra persone con accenti inglesi diversi sarebbe più alta.
Cosa ancora più interessante è che l’accordo tra più trascrittori misurato dall’LDC (Linguistics Data Consortium) va dal 4,1% al 9,6%, a seconda che si tratti di più trascrizioni precise o di una trascrizione rapida [2]. Ciò significa che se si fornisce lo stesso file audio a due persone, non si ottiene la stessa identica trascrizione di quanto è stato detto anche in condizioni ambientali perfette.
Il nostro obiettivo, mentre continuiamo a migliorare la trascrizione Webex, non è solo ottenere una trascrizione dello stesso livello della trascrizione umana, ma di superare tale livello e ottenere la massima accuratezza per ogni lingua, considerando accenti diversi, generi e ambienti acustici.
Quindi, per rispondere alla domanda “È accurato?” È fondamentale descrivere le diverse dimensioni di accuratezza nel riconoscimento vocale automatico:
1. L’accuratezza viene misurata utilizzando una metrica comune, denominata WER (Word Error Rate, percentuale di parole errate)
La metrica WER misura le prestazioni della macchina in termini di trascrizione di quanto detto dagli oratori.
Lo stesso audio che il modello di apprendimento automatico ha trascritto viene dato a trascrittori umani per ottenere un riferimento attendibile per la trascrizione.
La metrica WER viene calcolata dividendo il numero di errori per il numero totale di parole. Per calcolare la metrica WER, inizia sommando le sostituzioni, gli inserimenti e le eliminazioni che si verificano in una sequenza di parole riconosciute. Dividi tale numero per il numero totale di parole in base al riferimento attendibile. Il risultato è la metrica WER. Per trasformare tutto questo in una semplice formula, Percentuale di parole errate = (Sostituzioni + Inserimenti + Eliminazioni) / Numero di parole dette. [3]
Per sostituzione si intende quando una parola viene sostituita (ad esempio, “Caro” viene trascritto come “Carro”).
Per inserimento si intende quando viene aggiunta una parola che non è stata detta (ad esempio, “informatica” diventa “info matematica”).
Per eliminazione si intende quando una parola non viene assolutamente trascritta (ad esempio “al tempo stesso” diventa “al tempo”).
Più basso è il valore WER ottenuto, migliore è l’accuratezza del motore di trascrizione; il che significa che sta facendo meno errori.
Nel grafico seguente, prendiamo giugno 2020 come riferimento per il modello spedito per il motore di trascrizione basato su intelligenza artificiale di Webex Assistant. Puoi vedere che nel tempo abbiamo continuato a migliorare la nostra metrica WER raggiungendo il 36% di miglioramento incrementale a febbraio 2022.
2. Dipende tutto dal set di dati
Non esiste una misura assoluta di WER per qualsiasi determinato motore di riconoscimento vocale. Ogni set di dati dispone di diversi attributi, come la distribuzione di dialetti, generi, ambiente acustico e domini. Quindi, eseguendo il motore di trascrizione Webex su un set di dati di audiolibri si otterrà un valore WER diverso da quello ottenuto sulle riunioni Webex, che sarà a sua volta diverso da quello ottenuto sulle chiamate telefoniche. Inoltre, se si esegue lo stesso motore di trascrizione su riunioni Webex con utenti con accenti nativi inglesi e su una riunione Webex con partecipanti con accenti diversi, si otterrebbe una percentuale di parole errate diversa.
Per ottenere la massima accuratezza, ci stiamo concentrando esclusivamente sul caso d’uso della videoconferenza. Il modo di parlare delle persone nelle videoconferenze e il modo in cui le stesse persone parlano per telefono o ad Alexa sono diversi per molti aspetti. I nostri motori di riconoscimento vocale prendono questi modelli specifici e li ottimizzano per le videoconferenze. Sviluppare un motore ASR in-house anziché utilizzare un provider di terze parti ci consente di addestrare i nostri modelli di apprendimento automatico su tali attributi1 specifici dell’esperienza di riunione Webex.
3. L’accuratezza migliora nel corso della riunione
Il nostro motore ASR crea tre tipi di trascrizioni durante la riunione:
Bozza/espressione provvisoria: l’espressione bozza è quella che vedi in tempo reale. Se osservi i sottotitoli codificati in una riunione Webex [riquadro nero nella schermata seguente] mentre stai parlando, la trascrizione bozza viene creata nei primi millisecondi ed è la prima trascrizione che vedi. È chiamata trascrizione online/streaming audio.
Espressione finale: dopo alcuni millisecondi, un’altra bozza della trascrizione viene creata con una migliore accuratezza. Tutto questo accade in tempo reale e non può essere facilmente distinto a occhio nudo.
Vedi l’esempio seguente
In questo esempio per un’espressione parlata in una delle riunioni del nostro team: sono state create 13 bozze per una sola frase. Tutto questo accade in tempo reale per offrire la frase finale più precisa e la migliore esperienza all’utente in tempo reale.
Trascrizione avanzata: al termine della riunione, eseguiamo di nuovo un insieme di motori di trascrizione aggiuntivi per migliorare ulteriormente l’accuratezza della trascrizione. Le trascrizioni avanzate sono disponibili entro 10 minuti in media, indipendentemente dalla durata della riunione. Questa trascrizione è la versione più accurata di una trascrizione di riunione.
4. Altri problemi di trascrizione hanno impatto sulla percezione dell’accuratezza della trascrizione
Punteggiatura e uso delle maiuscole:
anche se la trascrizione potrebbe essere accurata, il testo potrebbe non essere trascritto con la giusta punteggiatura o l’uso delle maiuscole corretto. Ogni lingua dispone di proprie regole di punteggiatura e uso delle maiuscole e dobbiamo addestrare i nostri modelli per rispettare tali regole in modo che la trascrizione sia corretta per i nostri utenti.
Attribuzione a oratore:
L’attribuzione all’oratore attribuisce una parte di testo a un oratore e identifica chi ha parlato quando durante una riunione. Se un’espressione viene attribuita all’oratore errato, si percepisce una qualità più scarsa. L’attribuzione all’oratore ci consente di creare funzioni interessanti, come l’analisi della riunione in termini di tempo di parola dei partecipanti alla riunione.
Gestione di acronimi e nomi:
I motori di riconoscimento vocale sono solitamente addestrati su parole del dizionario comuni. Queste non includono nomi di persona, acronimi di società, linguaggio medico, eccetera. Ad esempio, l’acronimo “COVID-19” era un termine nuovo al mondo prima del 2020 e il nostro motore ASR non avrebbe potuto riconoscerlo perché non incluso nel dizionario. Il nostro team adotta diversi approcci per fornire una trascrizione più accurata di parole non incluse nel dizionario, come apprendere nomi di partecipanti durante una riunione o utilizzare la visione artificiale per apprendere acronimi di una presentazione che viene condivisa durante una riunione.
Gestione di numeri e formati speciali:
Alcuni numeri hanno bisogno di una formattazione specifica, come numeri di telefono (+1 203 456 7891), indirizzi e-mail (utente@email.com), date (15 aprile 2021) e altro. I modelli di apprendimento automatico addestrati su tali formati speciali identificano le parole dette ed elaborano successivamente il testo da visualizzare nel formato corretto. Tutto questo accade in tempo reale.
Scambio di battute:
Quando gli oratori parlano contemporaneamente o si interrompono l’uno con l’altro, la trascrizione (anche se accurata) potrebbe non essere leggibile, con un conseguente impatto sulla percezione della qualità. Per risolvere questo problema, stiamo sviluppando funzioni che sfruttano riconoscimento del volto e registro vocale per distinguere oratori diversi.
Siamo arrivati?
Non proprio. Tuttavia, è una maratona non una gara di velocità. Crediamo che continuando l’addestramento su dati specifici del dominio e contemporaneamente mitigando i pregiudizi e garantendo privacy e sicurezza dei dati ai nostri clienti, il nostro motore di trascrizione basato su intelligenza artificiale sviluppato in-house per Webex eguaglierà, se non addirittura supererà, la percentuale di parole errate rilevata da trascrittori umani.