{"id":373806,"date":"2021-09-14T08:59:41","date_gmt":"2021-09-14T15:59:41","guid":{"rendered":"https:\/\/blog.webex.com\/uncategorized-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/"},"modified":"2021-09-14T08:59:41","modified_gmt":"2021-09-14T15:59:41","slug":"post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico","status":"publish","type":"post","link":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/","title":{"rendered":"Post-elaborazione in sistemi di riconoscimento vocale automatico"},"content":{"rendered":"<h2>Introduzione<\/h2>\n<p>I sistemi di riconoscimento vocale automatico forniscono trascrizioni di testo. Di solito, si tratta di una sequenza di parole. Cisco utilizza sistemi ASR per fornire sottotitoli codificati in tempo reale nelle riunioni Webex. Un problema tipico \u00e8 che potrebbe essere difficile leggere i sottotitoli senza punteggiatura e maiuscole\/minuscole. Il modo in cui si comprende il significato di un testo pu\u00f2 cambiare in base alla punteggiatura. Immagina la seguente sequenza di parole con due opzioni per la punteggiatura:<\/p>\n<p>&#8220;grazie hai fatto una donazione a qualcuno e ora lavora&#8221;<\/p>\n<p>Opzione A: &#8220;Grazie! Hai fatto una donazione a qualcuno e ora lavora.&#8221;<\/p>\n<p>Opzione B: &#8220;Grazie! Hai fatto una donazione a qualcuno. E ora lavora!&#8221;<\/p>\n<p>Un solo segno di punteggiatura fa una grande differenza.<\/p>\n<p>Di seguito alcuni aspetti che vengono considerati durante lo sviluppo di un sistema di post-elaborazione:<\/p>\n<ul>\n<li>Modelli di alta precisione per ripristino di punteggiatura e maiuscole\/minuscole da testo non elaborato.<br \/>\nInferenza veloce su risultati temporanei: per mantenere l&#8217;allineamento a sottotitoli in tempo reale.<\/li>\n<li>Utilizzo risorse ridotto: il riconoscimento vocale consuma molte risorse informatiche; non abbiamo bisogno che anche i nostri modelli di punteggiatura consumino un numero elevato di risorse informatiche.<\/li>\n<li>Possibilit\u00e0 di elaborare termini non inclusi nel vocabolario: a volte, dobbiamo inserire punteggiatura o parole in maiuscolo\/minuscolo che il nostro modello non ha mai visto prima.<\/li>\n<\/ul>\n<p>Alcuni approcci classici basati su n-gram [1] offrono una qualit\u00e0 relativamente buona. Tuttavia, hanno i loro lati negativi. Sebbene i modelli n-gram abbiano un&#8217;inferenza veloce, anche i modelli 3-gram possono richiedere fino a diversi gigabyte di spazio su disco in base al vocabolario della lingua. Un altro svantaggio \u00e8 la gestione di parole non incluse nel vocabolario. Se una parola non era presente nei dati di addestramento, un modello non pu\u00f2 elaborarla in modo regolare, con un conseguente impatto sulla precisione.<\/p>\n<p>Gli approcci moderni utilizzano tecniche efficaci, ma con un consumo elevato di risorse informatiche, come RNN bidirezionale [3] o architetture di reti neurali basate su trasformatori e attenzione [2]. Questi modelli hanno una precisione elevata [2] ma potrebbero non essere adatti a casi d&#8217;uso di streaming in diretta, perch\u00e9 richiedono l&#8217;intera sequenza di input per eseguire l&#8217;inferenza. Ad esempio, quando disponi di un solo nuovo token di input per una RNN bidirezionale, devi aggiornare gli stati nascosti di tutti i token precedenti del modello (figura 1).<\/p>\n<div id=\"attachment_373203\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-373203\" class=\"wp-image-373203 size-full\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Computations-on-the-backward-pass-of-a-bi-directional-RNN.png\" alt=\"Calcoli sul passaggio indietro di una RNN bidirezionale\" width=\"904\" height=\"224\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Computations-on-the-backward-pass-of-a-bi-directional-RNN.png 904w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Computations-on-the-backward-pass-of-a-bi-directional-RNN-300x74.png 300w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Computations-on-the-backward-pass-of-a-bi-directional-RNN-768x190.png 768w\" sizes=\"auto, (max-width: 904px) 100vw, 904px\" \/><p id=\"caption-attachment-373203\" class=\"wp-caption-text\"><br \/>\n<\/a> Figura 1. Calcoli sul passaggio indietro di una RNN bidirezionale. Per ogni nuovo input, tutti i precedenti stati nascosti devono essere aggiornati sequenzialmente.<\/p><\/div>\n<p>\u00a0<\/p>\n<p>Alcuni approcci tentano di risolvere punteggiatura e maiuscole\/minuscole sviluppando due diversi modelli [3][6], mentre altri combinano entrambi in un singolo modello perch\u00e9 gli output sono altamente correlati [4][2]. Anche parole che seguono immediatamente la punteggiatura dimostrano questa correlazione: le parole dopo i punti vengono probabilmente scritte con la maiuscola e le parole dopo virgole vengono probabilmente scritte con la minuscola. Esistono approcci che suggeriscono un&#8217;architettura con pi\u00f9 output [4]: uno per attivit\u00e0, rispettivamente. Dimostrano che questa architettura offre prestazioni migliori rispetto ad architetture di punteggiatura e maiuscole\/minuscole separate.<\/p>\n<p>Alla luce delle considerazioni precedenti, abbiamo scelto di utilizzare una singola rete neurale basata su GRU con due output per punteggiatura e maiuscole\/minuscole.<\/p>\n<p>Per gestire le parole non incluse nel vocabolario, utilizziamo una tecnica simile a SentencePiece [6] che suddivide le parole sconosciute in token pi\u00f9 piccoli oppure, in casi estremi, in caratteri. Di seguito una descrizione di dettagli e considerazioni.<\/p>\n<h2>TruncBiRNN<\/h2>\n<p>Intuizione e sperimentazioni dimostrano che \u00e8 fondamentale disporre del contesto futuro quando si crea un modello di punteggiatura, perch\u00e9 \u00e8 pi\u00f9 difficile determinare i segni di punteggiatura in una posizione corrente senza conoscere le parole successive. Per utilizzare informazioni sui successivi token e non essere obbligati ad aggiornare tutti gli stati nascosti di tutti i token precedenti, abbiamo deciso di troncare la direzione indietro a una finestra fissa. In direzione avanti, \u00e8 semplicemente una RNN regolare. In direzione indietro, consideriamo solo una finestra fissa in ciascun token, eseguendo l&#8217;RNN su questa finestra (figura 2). L&#8217;uso di questa finestra consente di ottenere inferenza a tempo costante per un nuovo token di input (sar\u00e0 necessario calcolare un solo stato nascosto in direzione avanti e n+1 in direzione indietro).<\/p>\n<div id=\"attachment_373213\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-373213\" class=\"size-full wp-image-373213\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/TruncBiRNN-example.png\" alt=\"Esempio di TruncBiRNN\" width=\"904\" height=\"204\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/TruncBiRNN-example.png 904w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/TruncBiRNN-example-300x68.png 300w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/TruncBiRNN-example-768x173.png 768w\" sizes=\"auto, (max-width: 904px) 100vw, 904px\" \/><p id=\"caption-attachment-373213\" class=\"wp-caption-text\"><br \/>\n<\/a> Figura 2. In questo esempio, per ogni token corrente, solo i successivi due vengono considerati per calcolare lo stato nascosto in direzione indietro.<\/p><\/div>\n<p>\u00a0<\/p>\n<p>Ora, per ogni token, abbiamo stati nascosti per direzioni avanti e indietro, rispettivamente. Chiamiamo questo strato TruncBiRNN o TruncBiGRU (poich\u00e9 utilizziamo GRU). Questi stati nascosti possono essere calcolati a tempo costante, che non dipende dalla lunghezza dell&#8217;input. L&#8217;operazione a tempo costante \u00e8 fondamentale per il modello al fine di mantenere l&#8217;allineamento ai sottotitoli in tempo reale.<\/p>\n<h2>Architettura<\/h2>\n<p>L&#8217;architettura consiste di strato di incorporamento, TruncBiGRU e strato GRU unidirezionale, e strato completamente connesso. Per l&#8217;output, utilizziamo due strati softmax per punteggiatura e maiuscole\/minuscole, rispettivamente (figura 3).<\/p>\n<div id=\"attachment_373223\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-373223\" class=\"size-full wp-image-373223\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Model-architecture-with-window-size-equal-to-two-tokens-for-TruncBiGRU.png\" alt=\"Figura 3. Architettura di modelli con dimensione della finestra uguale a due token per TruncBiGRU\" width=\"962\" height=\"828\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Model-architecture-with-window-size-equal-to-two-tokens-for-TruncBiGRU.png 604w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Model-architecture-with-window-size-equal-to-two-tokens-for-TruncBiGRU-300x258.png 300w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Model-architecture-with-window-size-equal-to-two-tokens-for-TruncBiGRU-768x661.png 768w\" sizes=\"auto, (max-width: 962px) 100vw, 962px\" \/><p id=\"caption-attachment-373223\" class=\"wp-caption-text\"><br \/>\n<\/a> Figura 3. Architettura di modelli con dimensione finestra uguale a due token per TruncBiGRU.<\/p><\/div>\n<p>\u00a0<\/p>\n<p>Per ogni parola, il modello prevede l&#8217;uso di maiuscole\/minuscole e il segno di punteggiatura dopo la parola. Per sincronizzare meglio questi due output e prevedere l&#8217;uso di maiuscole\/minuscole, dobbiamo conoscere anche l&#8217;incorporamento dal precedente token (per ripristinare il segno di punteggiatura dal passaggio precedente). Insieme a una funzione di perdita personalizzata (vedi la sezione seguente), ci\u00f2 ci consente di evitare casi in cui venga prodotta una parola minuscola all&#8217;inizio di una frase.<\/p>\n<p>Per la previsione della punteggiatura, \u00e8 utile anche ottenere la previsione di maiuscole\/minuscole della parola seguente. Ecco perch\u00e9 concateniamo incorporamenti correnti e successivi.<\/p>\n<p>Uno strato di output per la punteggiatura prevede la distribuzione su tutti i segni di punteggiatura. Per il nostro modello, \u00e8 impostato come segue:<\/p>\n<p><em>punto<\/em>: un punto al centro di una frase che non implica necessariamente che la parola seguente debba essere in maiuscolo (&#8220;a.m.&#8221;, &#8220;D.C.&#8221;, ecc.)<\/p>\n<p><em>virgola<\/em><\/p>\n<p><em>punto interrogativo<\/em><\/p>\n<p><em>ellissi<\/em><\/p>\n<p><em>due punti<\/em><\/p>\n<p><em>trattino<\/em><\/p>\n<p><em>punto di fine<\/em>: un punto alla fine di una frase<\/p>\n<p>\u00a0<\/p>\n<p>Per maiuscole\/minuscole, sono disponibili quattro classi:<\/p>\n<p><em>minuscolo<\/em><\/p>\n<p><em>tutto maiuscolo<\/em>: tutte le lettere vengono scritte in maiuscolo (&#8220;IEEE&#8221;, &#8220;NASA&#8221;, ecc.)<\/p>\n<p><em>maiuscole<\/em><\/p>\n<p><em>maiuscole_minuscole<\/em>: per parole come &#8220;iPhone&#8221;<\/p>\n<p><em>maiuscola iniziale<\/em>: parole che iniziano una frase<\/p>\n<p>Le classi aggiuntive, &#8220;<em>maiuscola iniziale&#8221; e <\/em>&#8220;<em>punto di fine<\/em>&#8221; possono sembrare ridondanti a prima vista, ma aiutano ad aumentare la coerenza di risposte correlate a maiuscole\/minuscole e punteggiatura. Il &#8220;<em>punto di fine&#8221; <\/em>implica che la successiva risposta di maiuscole\/minuscole non possa essere &#8220;<em>minuscolo&#8221;<\/em>, mentre &#8220;<em>maiuscola iniziale&#8221; <\/em>significa che il segno di punteggiatura precedente \u00e8 un &#8220;<em>punto di fine<\/em>&#8221; o un punto interrogativo. Queste classi svolgono un ruolo importante nella funzione di perdita.<\/p>\n<p>Funzione di perdita:<br \/>\nDobbiamo ottimizzare entrambi, maiuscole\/minuscole e punteggiatura. Per raggiungere questo obiettivo, utilizziamo una somma della funzione di perdita logloss con un coefficiente:<\/p>\n<p><a href=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function.png\"><br \/>\n  <img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-373233\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function.png\" alt=\"Funzione di perdita\" width=\"668\" height=\"38\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function.png 668w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-300x17.png 300w\" sizes=\"auto, (max-width: 668px) 100vw, 668px\" \/><br \/>\n<\/a><\/p>\n<p>tuttavia, come detto in precedenza, gli output di una rete neurale potrebbero non essere perfettamente correlati. Ad esempio, la funzione di punteggiatura pu\u00f2 prevedere un &#8220;<em>punto di fine&#8221; <\/em>per la parola corrente, ma la funzione di maiuscole\/minuscole non prevede una &#8220;<em>maiuscola iniziale<\/em>&#8221; per il token successivo. Questo tipo di errore, sebbene raro, pu\u00f2 essere molto eclatante. Per gestirlo, utilizziamo un termine di penalit\u00e0 aggiuntivo nella funzione di perdita che penalizza questo tipo di errore:<\/p>\n<p><a href=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty.png\"><br \/>\n  <img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-373243\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty.png\" alt=\"sanzione disaccordo\" width=\"904\" height=\"68\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty.png 904w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty-300x23.png 300w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty-768x58.png 768w\" sizes=\"auto, (max-width: 904px) 100vw, 904px\" \/><br \/>\n<\/a><\/p>\n<p>Il primo termine corrisponde alla probabilit\u00e0 di avere la &#8220;<em>maiuscola iniziale<\/em>&#8221; dopo un &#8220;<em>punto non di fine&#8221; <\/em>e il secondo corrisponde alla probabilit\u00e0 di non avere una &#8220;<em>maiuscola iniziale<\/em>&#8221; dopo il &#8220;<em>punto di fine&#8221;.<\/em>\u00a0 Questa penalit\u00e0 si somma nei token in cui si verifica questo errore.<\/p>\n<p>Inoltre, passiamo due tensori consecutivi dallo strato precedente agli strati softmax. Con questi presupposti, possiamo ridurre in modo efficiente i termini di penalit\u00e0.<\/p>\n<p>Infine, abbiamo la funzione di perdita:<\/p>\n<p><a href=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-1.png\"><br \/>\n  <img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-373253\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-1.png\" alt=\"Funzione di perdita\" width=\"652\" height=\"60\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-1.png 652w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-1-300x28.png 300w\" sizes=\"auto, (max-width: 652px) 100vw, 652px\" \/><br \/>\n<\/a><\/p>\n<h2>Training<\/h2>\n<p>Per l&#8217;addestramento, utilizziamo trascrizioni di testo di un set di riunioni Webex interne e dati di testo di Wikipedia.<\/p>\n<p>In primo luogo, i dati di addestramento vengono puliti e suddivisi in frasi. Durante l&#8217;addestramento, ogni esempio viene generato da frasi consecutive e viene troncato a una lunghezza casuale da una distribuzione fissa. Ci\u00f2 consente al modello di vedere frasi tagliate durante l&#8217;addestramento e di gestire risultati temporanei durante l&#8217;inferenza. Quindi, addestriamo il modello su circa 300 megabyte di testo Wikipedia e lo perfezioniamo su trascrizioni di riunioni Webex.<\/p>\n<p>Il pre-addestramento su Wikipedia aiuta a migliorare tutte le classi di punteggiatura, ma \u00e8 particolarmente utile su classi di maiuscole\/minuscole. Sospettiamo che questo sia dovuto al grande numero di nomi propri presenti in Wikipedia.<\/p>\n<p>Applichiamo la stessa preparazione di dati ai nostri set di valutazione concatenando frasi e troncandole in modo casuale. Ci\u00f2 ci consente di misurare la precisione che vorremmo vedere negli stati di trascrizione temporanei.<\/p>\n<h2>Conclusione<\/h2>\n<p>Utilizzando tecniche relativamente semplici con personalizzazioni dell&#8217;architettura, come GRU troncato e una penalit\u00e0 aggiuntiva in una funzione di perdita, abbiamo costruito un modello che pu\u00f2 essere eseguito online. L&#8217;esperienza di lettura di sottotitoli in diretta \u00e8 significativamente migliorata con segni di punteggiatura e maiuscole\/minuscole in tempo reale.<\/p>\n<p><strong>Riferimenti <\/strong><\/p>\n<p>[1] A. Gravano, M. Jansche e M. Bacchiani, &#8220;Restoring punctuation and capitalization in transcribed speech&#8221; in ICASSP 2009, 2009, pp. 4741\u20134744.<\/p>\n<p>[2] Monica Sunkara, Srikanth Ronanki, Kalpit Dixit, Sravan Bodapati, Katrin Kirchhoff, &#8220;Robust Prediction of Punctuation and Truecasing for Medical ASR&#8221;<\/p>\n<p>[3] Tilk, Ottokar &#038; Alum\u00e4e, Tanel. (2016). Bidirectional Recurrent Neural Network with Attention Mechanism for Punctuation Restoration. 3047-3051. 10.21437\/Interspeech.2016-1517.<\/p>\n<p>[4] Vardaan Pahuja, Anirban Laha, Shachar Mirkin, Vikas Raykar, Lili Kotlerman, Guy Lev &#8220;Joint Learning of Correlated Sequence Labelling Tasks Using Bidirectional Recurrent Neural Networks&#8221;<\/p>\n<p>[5] Wang, Peilu &#038; Qian, Yao &#038; Soong, Frank &#038; He, Lei &#038; Zhao, Hai. (2015). Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network.<\/p>\n<p>[6] Lita, Lucian &#038; Ittycheriah, Abe &#038; Roukos, Salim &#038; Kambhatla, Nanda. (2003). tRuEcasIng. 10.3115\/1075096.1075116.<\/p>\n<p>[7] https:\/\/github.com\/google\/sentencepiece<\/p>\n<p><a href=\"https:\/\/www.webex.com\/video-conferencing\">Iscriviti a Webex<\/a><\/p>\n<p>Visita la nostra <a href=\"https:\/\/www.webex.com\/\">home page<\/a> o <a href=\"https:\/\/www.webex.com\/contact-us.html\">contattaci<\/a> direttamente per assistenza.<\/p>\n<p><span data-ccp-props=\"{&quot;201341983&quot;:0,&quot;335559739&quot;:160,&quot;335559740&quot;:259}\"><br \/>\n  <a href=\"https:\/\/www.webex.com\/?utm_source=Influence&#038;utm_medium=EarnedContent&#038;utm_campaign=FutureOfWork\">Fai clic qui<\/a> per ulteriori informazioni sulle offerte di Webex e per eseguire l&#8217;iscrizione a un account gratuito<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Introduzione I sistemi di riconoscimento vocale automatico forniscono trascrizioni di testo. Di solito, si tratta di una sequenza di parole. [&hellip;]<\/p>\n","protected":false},"author":5546,"featured_media":373198,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"footnotes":""},"categories":[1530],"tags":[4658,573],"class_list":["post-373806","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-engineering-it","tag-apprendimento-automatico","tag-artificial-intelligence"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.8 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Post-elaborazione in sistemi di riconoscimento vocale automatico | Webex Blog<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/\" \/>\n<meta property=\"og:locale\" content=\"it_IT\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Post-elaborazione in sistemi di riconoscimento vocale automatico | Webex Blog\" \/>\n<meta property=\"og:description\" content=\"Introduzione I sistemi di riconoscimento vocale automatico forniscono trascrizioni di testo. Di solito, si tratta di una sequenza di parole. [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/\" \/>\n<meta property=\"og:site_name\" content=\"Webex Blog\" \/>\n<meta property=\"article:published_time\" content=\"2021-09-14T15:59:41+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png\" \/>\n\t<meta property=\"og:image:width\" content=\"975\" \/>\n\t<meta property=\"og:image:height\" content=\"554\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"Pavel Pekichev\" \/>\n<meta name=\"twitter:label1\" content=\"Scritto da\" \/>\n\t<meta name=\"twitter:data1\" content=\"Pavel Pekichev\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tempo di lettura stimato\" \/>\n\t<meta name=\"twitter:data2\" content=\"8 minuti\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/it\\\/engineering-it\\\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/it\\\/engineering-it\\\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\\\/\"},\"author\":{\"name\":\"Pavel Pekichev\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/#\\\/schema\\\/person\\\/1428e2402190d3d3bd831f586e51567f\"},\"headline\":\"Post-elaborazione in sistemi di riconoscimento vocale automatico\",\"datePublished\":\"2021-09-14T15:59:41+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/it\\\/engineering-it\\\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\\\/\"},\"wordCount\":1610,\"commentCount\":0,\"image\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/it\\\/engineering-it\\\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/blog.webex.com\\\/wp-content\\\/uploads\\\/2021\\\/09\\\/Post-processor-model-sign-example.png\",\"keywords\":[\"Apprendimento automatico\",\"Artificial Intelligence\"],\"articleSection\":[\"Ingegneria\"],\"inLanguage\":\"it-IT\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\\\/\\\/blog.webex.com\\\/it\\\/engineering-it\\\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\\\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/it\\\/engineering-it\\\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\\\/\",\"url\":\"https:\\\/\\\/blog.webex.com\\\/it\\\/engineering-it\\\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\\\/\",\"name\":\"Post-elaborazione in sistemi di riconoscimento vocale automatico | Webex Blog\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/it\\\/engineering-it\\\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/it\\\/engineering-it\\\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/blog.webex.com\\\/wp-content\\\/uploads\\\/2021\\\/09\\\/Post-processor-model-sign-example.png\",\"datePublished\":\"2021-09-14T15:59:41+00:00\",\"author\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/#\\\/schema\\\/person\\\/1428e2402190d3d3bd831f586e51567f\"},\"breadcrumb\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/it\\\/engineering-it\\\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\\\/#breadcrumb\"},\"inLanguage\":\"it-IT\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/blog.webex.com\\\/it\\\/engineering-it\\\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"it-IT\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/it\\\/engineering-it\\\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\\\/#primaryimage\",\"url\":\"https:\\\/\\\/blog.webex.com\\\/wp-content\\\/uploads\\\/2021\\\/09\\\/Post-processor-model-sign-example.png\",\"contentUrl\":\"https:\\\/\\\/blog.webex.com\\\/wp-content\\\/uploads\\\/2021\\\/09\\\/Post-processor-model-sign-example.png\",\"width\":975,\"height\":554,\"caption\":\"Post-processing in Automatic Speech Recognition systems\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/it\\\/engineering-it\\\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/blog.webex.com\\\/it\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Post-elaborazione in sistemi di riconoscimento vocale automatico\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/#website\",\"url\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/\",\"name\":\"Webex Blog\",\"description\":\"Webex by Cisco powers collaboration through industry-leading video conferencing, cloud calling and contact center solutions\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"it-IT\"},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/#\\\/schema\\\/person\\\/1428e2402190d3d3bd831f586e51567f\",\"name\":\"Pavel Pekichev\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"it-IT\",\"@id\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g\",\"contentUrl\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g\",\"caption\":\"Pavel Pekichev\"},\"description\":\"Pavel Pekichev is a Machine Learning Scientist at Cisco working on speech recognition systems. Currently, his main focus is on the post-processing of speech-to-text models. Pavel graduated from Moscow State University with a degree in mathematics and statistics. Prior to Cisco, Pavel worked on a real-time bidding platform and recommendation systems. He has given several talks at industry conferences.\",\"sameAs\":[\"https:\\\/\\\/ru.linkedin.com\\\/in\\\/pavel-pekichev-7a078973\"],\"url\":\"https:\\\/\\\/blog.webex.com\\\/it\\\/contributors\\\/pavelp\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Post-elaborazione in sistemi di riconoscimento vocale automatico | Webex Blog","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/","og_locale":"it_IT","og_type":"article","og_title":"Post-elaborazione in sistemi di riconoscimento vocale automatico | Webex Blog","og_description":"Introduzione I sistemi di riconoscimento vocale automatico forniscono trascrizioni di testo. Di solito, si tratta di una sequenza di parole. [&hellip;]","og_url":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/","og_site_name":"Webex Blog","article_published_time":"2021-09-14T15:59:41+00:00","og_image":[{"width":975,"height":554,"url":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","type":"image\/png"}],"author":"Pavel Pekichev","twitter_misc":{"Scritto da":"Pavel Pekichev","Tempo di lettura stimato":"8 minuti"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/#article","isPartOf":{"@id":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/"},"author":{"name":"Pavel Pekichev","@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f"},"headline":"Post-elaborazione in sistemi di riconoscimento vocale automatico","datePublished":"2021-09-14T15:59:41+00:00","mainEntityOfPage":{"@id":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/"},"wordCount":1610,"commentCount":0,"image":{"@id":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/#primaryimage"},"thumbnailUrl":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","keywords":["Apprendimento automatico","Artificial Intelligence"],"articleSection":["Ingegneria"],"inLanguage":"it-IT","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/","url":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/","name":"Post-elaborazione in sistemi di riconoscimento vocale automatico | Webex Blog","isPartOf":{"@id":"https:\/\/blog.webex.com\/es\/#website"},"primaryImageOfPage":{"@id":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/#primaryimage"},"image":{"@id":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/#primaryimage"},"thumbnailUrl":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","datePublished":"2021-09-14T15:59:41+00:00","author":{"@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f"},"breadcrumb":{"@id":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/#breadcrumb"},"inLanguage":"it-IT","potentialAction":[{"@type":"ReadAction","target":["https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/"]}]},{"@type":"ImageObject","inLanguage":"it-IT","@id":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/#primaryimage","url":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","contentUrl":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","width":975,"height":554,"caption":"Post-processing in Automatic Speech Recognition systems"},{"@type":"BreadcrumbList","@id":"https:\/\/blog.webex.com\/it\/engineering-it\/post-elaborazione-in-sistemi-di-riconoscimento-vocale-automatico\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/blog.webex.com\/it\/"},{"@type":"ListItem","position":2,"name":"Post-elaborazione in sistemi di riconoscimento vocale automatico"}]},{"@type":"WebSite","@id":"https:\/\/blog.webex.com\/es\/#website","url":"https:\/\/blog.webex.com\/es\/","name":"Webex Blog","description":"Webex by Cisco powers collaboration through industry-leading video conferencing, cloud calling and contact center solutions","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/blog.webex.com\/es\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"it-IT"},{"@type":"Person","@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f","name":"Pavel Pekichev","image":{"@type":"ImageObject","inLanguage":"it-IT","@id":"https:\/\/secure.gravatar.com\/avatar\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g","caption":"Pavel Pekichev"},"description":"Pavel Pekichev is a Machine Learning Scientist at Cisco working on speech recognition systems. Currently, his main focus is on the post-processing of speech-to-text models. Pavel graduated from Moscow State University with a degree in mathematics and statistics. Prior to Cisco, Pavel worked on a real-time bidding platform and recommendation systems. He has given several talks at industry conferences.","sameAs":["https:\/\/ru.linkedin.com\/in\/pavel-pekichev-7a078973"],"url":"https:\/\/blog.webex.com\/it\/contributors\/pavelp\/"}]}},"_links":{"self":[{"href":"https:\/\/blog.webex.com\/it\/wp-json\/wp\/v2\/posts\/373806","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.webex.com\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.webex.com\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.webex.com\/it\/wp-json\/wp\/v2\/users\/5546"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.webex.com\/it\/wp-json\/wp\/v2\/comments?post=373806"}],"version-history":[{"count":0,"href":"https:\/\/blog.webex.com\/it\/wp-json\/wp\/v2\/posts\/373806\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.webex.com\/it\/wp-json\/wp\/v2\/media\/373198"}],"wp:attachment":[{"href":"https:\/\/blog.webex.com\/it\/wp-json\/wp\/v2\/media?parent=373806"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.webex.com\/it\/wp-json\/wp\/v2\/categories?post=373806"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.webex.com\/it\/wp-json\/wp\/v2\/tags?post=373806"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}