Come la nostra ricerca di intelligenza artificiale audio/video inclusiva sta contribuendo al futuro della collaborazione

On By Chris Rowen6 Min Read
Person working from their laptop at a coffee shop
Webex introduce continuamente innovazioni per l’esperienza di lavoro ibrido. Il nostro team sta sfruttando metodi di intelligenza artificiale e apprendimento profondo per offrire un’esperienza di collaborazione eccezionale, migliorando l’esperienza audio e video, la traduzione e la trascrizione ed espandendo l’assistenza automatizzata. Il nostro approccio all’intelligenza artificiale aiuta gli utenti a sentirsi visti, ascoltati e apprezzati allo stesso modo da qualsiasi posizione stanno partecipando, casa, ufficio o in movimento. Abbiamo progettato la nostra piattaforma di intelligenza artificiale con l’obiettivo di offrire un approccio inclusivo alla collaborazione, consentendo la partecipazione a persone di tutto il mondo, indipendentemente da lingua, sesso o età. Per informazioni su questo approccio, leggi il nostro blog sulla struttura di intelligenza artificiale responsabile di Cisco che parla di governance, processo e misure a livello di istruzione che adottiamo per ridurre o eliminare i pregiudizi che possono emergere da algoritmi o set di dati. Webex si trova in una posizione unica per offrire un’esperienza di collaborazione integrata e sicura sui nostri dispositivi, desktop, portatili, smartphone e formati di dispositivo emergenti. La nostra visione è fornire un’esperienza di livello equivalente a un’esperienza di persona, o persino migliore. Il nostro approccio all’intelligenza artificiale offre maggiore comprensione, riduce l’affaticamento e migliora la facilità d’uso. Il nostro obiettivo è utilizzare l’intelligenza artificiale per aumentare la chiarezza nelle comunicazioni tra partecipanti ed essere più adattabili alle esigenze dei singoli partecipanti. In Webex, abbiamo sviluppato le nostre funzionalità di intelligenza artificiale considerando la collaborazione come un insieme completo anziché come i tipici silos di tecnologia correlata all’intelligenza artificiale.

Progettazione per ambienti di lavoro ibrido complessi

Il nostro obiettivo è applicare l’intelligenza dell’apprendimento automatico ad audio, video e linguaggio naturale in un modo che aumenta la capacità di adattamento degli utenti finali e risulta vincente in ambienti di lavoro ibrido complessi.

Approccio inclusivo alla collaborazione

I nostri modelli di apprendimento automatico sono addestrati con set di dati grandi e diversificati per riconoscere un’ampia gamma di lingue e accenti per la conversazione e dati demografici per la visione artificiale.

Integrazione con privacy e sicurezza sin dalle basi

La nostra architettura tecnologica offre implicitamente un approccio privato e sicuro all’apprendimento automatico elaborando i dati principalmente su portatili e dispositivi degli utenti finali anziché trasmetterli al cloud. Questo approccio basato su edge computing alla tecnologia di intelligenza artificiale migliora fondamentalmente la sicurezza per risorse e dati multimediali. L’approccio di Webex allo sviluppo di intelligenza artificiale si basa sui principi di attendibilità dei dati di Cisco.

Esperienza di collaborazione a bassa latenza

L’approccio incentrato su edge offre anche un’esperienza reattiva perché i dati multimediali possono essere elaborati in decine di millisecondi, a differenza dei diversi passaggi dei dati attraverso il cloud che introducono una latenza altamente variabile. I nostri algoritmi sono progettati in un modo che può adattarsi in scala a diversi tipi di processore, bilancio di potenza e sistemi operativi, consentendo di lavorare da qualsiasi luogo.

Esperienza di collaborazione semplificata su dispositivi Webex

Le tecnologie di intelligenza artificiale di Webex lavorano in background per produrre un’esperienza generale migliore e sono direttamente integrate in telefoni da tavolo, desktop e dispositivi di sala conferenze Webex.

Opportunità per innovazione continua

L’architettura basata su intelligenza artificiale incentrata sulla collaborazione e completa di Webex arricchisce l’esperienza multimediale e offre nuove opportunità per adattarsi rapidamente a nuovi casi d’uso e domini specifici del cliente.

Approccio basato su intelligenza artificiale di Webex ad analisi e ricostruzione di flussi multimediali

analisi e ricostruzione di flussi multimediali

Figura 1: Modello di elaborazione audio basato su intelligenza artificiale di Webex

I clienti Webex si affidano al nostro portfolio per collaborare da qualsiasi luogo. Il nostro approccio consiste nell’identificare le caratteristiche del partecipante indipendentemente dall’ambiente, quindi sfruttare l’intelligenza artificiale e l’apprendimento automatico per separare audio o video in ingresso in flussi di dati segmentati. Questo livello di estrazione dettagliata di flussi di componenti significativi non è stato possibile precedentemente nel software di comunicazione in tempo reale ampiamente distribuito.

1. Scomposizione basata su apprendimento automatico

La scomposizione separa un flusso audio in arrivo includendo:
  • Oratori in primo piano e sullo sfondo sono identificati stimando la distanza di un oratore dal microfono in base al livello di conversazione e al riverbero della conversazione.
  • Eventi audio vengono rilevati includendo specifici trigger acustici o parole chiave.
  • Riverbero, il sottile eco di una voce in una sala, viene separato e può essere regolato per trasmettere più chiaramente la voce del partecipante.
  • Musica di sottofondo viene separata nel proprio flusso, consentendo la regolazione del volume in fase di ricomposizione.
  • Rumore di sottofondo viene separato e può includere elementi ambientali che possono essere regolati in base al caso d’uso.

2. Componenti audio per utente

Una volta separati i flussi di dati, vengono aggregati in componenti audio per utente, in modo da poter selezionare, modificare o intervenire sul flusso audio di ogni partecipante singolarmente.

3. Ricostruzione basata su apprendimento automatico

In base al caso d’uso, possiamo combinare singoli flussi di dati nuovamente nell’audio condiviso con altri. Questo approccio ci consente di servire diversi casi d’uso e requisiti. Ad esempio, la funzione Webex Smart Audio consente ai partecipanti di scegliere se desiderano rimuovere tutto il rumore di sottofondo (Rimozione rumore), rimuovere tutto il rumore e la conversazione di sottofondo (Ottimizza per la mia voce) o ascoltare l’audio originale quando suoni uno strumento o canti un brano (modalità Musica).

4. Audio con rendering

Il flusso audio risultante viene trasmesso agli altri partecipanti in un modo che è più facile da comprendere con meno sforzo mentale.

Nuovi casi d’uso grazie al vantaggio computazionale

Poiché la nostra architettura di intelligenza artificiale è concentrata sulla collaborazione, possiamo separare i dati multimediali in un singolo ciclo computazionale anziché elaborare il flusso multimediale più volte attraverso modelli diversi. Questo approccio aumenta l’efficienza generale del processo e offre un’esperienza a bassa latenza. Possiamo anche facilmente aggiungere nuovi componenti al ciclo computazionale del flusso, consentendo potenzialmente nuovi scenari d’uso con un’immagine più ricca del flusso di input. L’approccio all’elaborazione dei flussi multimediali di Webex si espande e offre:

Migliore comprensione tramite riconoscimento vocale

Possiamo distinguere coloro che parlano dal rumore, coloro che parlano che sono più vicini o lontani dal microfono e persino regolare il riverbero della sala. Tutti questi elementi vengono identificati come flussi separati, consentendo una maggiore flessibilità per soddisfare una specifica esigenza dell’utente. Possiamo selezionare, modificare e intervenire su questi flussi singolarmente e ricostruire nuovi flussi audio da componenti audio selezionati. Ad esempio, in una chiamata, potremmo voler equalizzare il volume di coloro che parlano in primo piano o sullo sfondo e in altre potremmo voler evidenziare l’oratore più vicino al microfono. Possiamo anche riconoscere trigger di evento audio come “OK Webex” o evidenziare altro audio ambientale che può essere importante per un partecipante.

Flussi video più potenti grazie alla visione artificiale

Il nostro approccio ai flussi multimediali ci consente di avere una maggiore comprensione della scena video e ricomporre gli elementi per migliorare la qualità video. Ad esempio, possiamo distinguere un partecipante dallo sfondo e i gesti che sta utilizzando. Possiamo visualizzare il video selezionando e modificando questi flussi separati per fare in modo che gli altri partecipanti visualizzino nel miglior modo possibile il relatore, riducendo al minimo le distrazioni. Questo approccio offre un mondo di possibilità e rende più semplice per i partecipanti collaborare anche da ambienti difficili.

Esperienza di collaborazione migliore con Webex Assistant

Webex Assistant fornisce controlli vocali per l’esperienza di collaborazione, intelligenza proattiva, trascrizione e servizi di traduzione. Lo abbiamo implementato in modo da elaborare una parte maggiore del riconoscimento della lingua sul dispositivo, aumentando la precisione e riducendo la latenza di fino a 4 volte rispetto a sistemi basati su cloud standard. Webex Assistant offre anche API con Webex Assistant Skills, in modo che sviluppatori di terze parti possano aggiungere nuova funzionalità e connettersi alle proprie applicazioni con controlli vocali. Abbiamo espanso il numero di lingue supportate per trascrizione e traduzione e abbiamo anche aggiunto altre lingue per Devices, incluso inglese (esistente), tedesco, francese, spagnolo e giapponese.

Nuove frontiere basate su 3D tramite visione artificiale

La visione artificiale consente l’identificazione dell’ambiente spaziale in un flusso video. L’approccio di Webex al 3D si concentra sulla riduzione del carico cognitivo per i relatori e i partecipanti anziché sulla richiesta di cuffie AR/VR per incorporarle in uno spazio interamente di realtà virtuale. Ad esempio, possiamo estrarre modelli 3D accurati e adattamento. Possiamo anche eseguire la scansione della geometria facciale dei partecipanti per consentire il miglioramento dell’immagine e la personalizzazione. L’approccio di Webex all’intelligenza artificiale consente ai team di collaborare con maggiore flessibilità ed espande il modo in cui le persone possono partecipare nelle riunioni. Il solido modello di elaborazione dei flussi multimediali basato su intelligenza artificiale oggi offre un’esperienza di collaborazione di livello world-class e apre nuove frontiere per domani.

Vuoi scoprire come l’intelligenza artificiale fa la differenza nella collaborazione? Contattaci oggi stesso per una demo.

Ulteriori informazioni Progettazione di sistemi AI responsabili Le ultime funzioni AI Webex potenziano il futuro del lavoro Miglioramento delle esperienze di lavoro e dei clienti in un mondo ibrido

About The Author

Chris Rowen
Chris Rowen VP of Engineering Cisco
Chris is a Silicon Valley entrepreneur and technologist known for his groundbreaking work developing RISC microprocessors, domain-specific architectures and deep learning-based software.
Learn more

Topics


More like this