{"id":373809,"date":"2021-09-14T08:59:41","date_gmt":"2021-09-14T15:59:41","guid":{"rendered":"https:\/\/blog.webex.com\/uncategorized-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/"},"modified":"2021-09-14T08:59:41","modified_gmt":"2021-09-14T15:59:41","slug":"el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla","status":"publish","type":"post","link":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/","title":{"rendered":"El posprocesamiento en los sistemas de reconocimiento autom\u00e1tico ..."},"content":{"rendered":"<h2>Introducci\u00f3n<\/h2>\n<p>Los sistemas de reconocimiento autom\u00e1tico del habla (ASR, por sus siglas en ingl\u00e9s) proporcionan transcripciones de texto. Normalmente, se trata de una secuencia de palabras. Cisco utiliza sistemas ASR para proporcionar subt\u00edtulos en tiempo real en las reuniones de Webex. Uno de los problemas que surgen es que puede resultar dif\u00edcil leer los subt\u00edtulos sin puntuaci\u00f3n ni may\u00fasculas. La capacidad de entender el significado del texto puede cambiar en funci\u00f3n de la puntuaci\u00f3n. Imagine la siguiente secuencia de palabras con dos opciones de puntuaci\u00f3n:<\/p>\n<p>\u201cgracias su donaci\u00f3n acaba de ayudar a alguien a conseguir un trabajo\u201d.<\/p>\n<p>Opci\u00f3n A: \u201c\u00a1Gracias! Su donaci\u00f3n acaba de ayudar a alguien a conseguir un trabajo\u201d.<\/p>\n<p>Opci\u00f3n B: \u201c\u00a1Gracias! Su donaci\u00f3n acaba de ayudar a alguien. \u00a1A conseguir trabajo!\u201d.<\/p>\n<p>Los signos de puntuaci\u00f3n marcan una gran diferencia.<\/p>\n<p>Repasaremos varias consideraciones a la hora de desarrollar un sistema de posprocesamiento:<\/p>\n<ul>\n<li>Modelos de alta precisi\u00f3n para la restauraci\u00f3n de los signos de puntuaci\u00f3n y el uso de may\u00fasculas a partir del texto sin formato.<br \/>\nInferencia r\u00e1pida sobre los resultados provisionales: para seguir el ritmo de los subt\u00edtulos en tiempo real.<\/li>\n<li>Utilizaci\u00f3n de pocos recursos: el reconocimiento del habla es intensivo desde el punto de vista computacional; no necesitamos que nuestros modelos de puntuaci\u00f3n tambi\u00e9n lo sean.<\/li>\n<li>Capacidad para procesar palabras no incluidas en el vocabulario: a veces, necesitaremos asignar puntuaci\u00f3n o poner en may\u00fasculas palabras que nuestro modelo no ha visto antes.<\/li>\n<\/ul>\n<p>Algunos enfoques cl\u00e1sicos basados en n-gramas [1] tienen una calidad relativamente buena. Sin embargo, tienen sus inconvenientes. Aunque los modelos de n-gramas tienen una inferencia r\u00e1pida, incluso los modelos de 3-gramas pueden ocupar varios gigabytes de espacio en disco seg\u00fan el vocabulario del idioma. Otro inconveniente es el manejo de las palabras no incluidas en el vocabulario. Si una palabra no se presenta en los datos de entrenamiento, el modelo no puede procesarla de forma habitual y la precisi\u00f3n puede degradarse.<\/p>\n<p>Los enfoques modernos utilizan t\u00e9cnicas eficaces pero intensivas desde el punto de vista computacional, como la RNN bidireccional [3] o las arquitecturas de redes neuronales basadas en la atenci\u00f3n y la transformaci\u00f3n [2]. Estos modelos tienen un nivel alto de precisi\u00f3n [2], pero pueden no ser adecuados para los casos de uso de la transmisi\u00f3n en directo, ya que requieren la totalidad de la secuencia de entrada para ejecutar la inferencia. Por ejemplo, cuando se tiene solo un token de entrada nuevo para una RNN bidireccional, es necesario actualizar los estados ocultos de todos los tokens que el modelo vio anteriormente (figura 1).<\/p>\n<p><div id=\"attachment_373203\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-373203\" class=\"wp-image-373203 size-full\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Computations-on-the-backward-pass-of-a-bi-directional-RNN.png\" alt=\"C\u00e1lculos en el paso hacia atr\u00e1s de una RNN bidireccional\" width=\"904\" height=\"224\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Computations-on-the-backward-pass-of-a-bi-directional-RNN.png 904w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Computations-on-the-backward-pass-of-a-bi-directional-RNN-300x74.png 300w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Computations-on-the-backward-pass-of-a-bi-directional-RNN-768x190.png 768w\" sizes=\"auto, (max-width: 904px) 100vw, 904px\" \/><p id=\"caption-attachment-373203\" class=\"wp-caption-text\"><br \/>\n<\/a> Figura 1. C\u00e1lculos en el paso hacia atr\u00e1s de una RNN bidireccional. Para cada nueva entrada, todos los estados ocultos anteriores deben actualizarse secuencialmente<\/p><\/div>.<\/p>\n<p>\u00a0<\/p>\n<p>Algunos enfoques intentan resolver la puntuaci\u00f3n y el uso de may\u00fasculas desarrollando dos modelos diferentes [3][6], y otros combinan ambos en un \u00fanico modelo, ya que las salidas se correlacionan mucho [4][2]. Las palabras que siguen inmediatamente a la puntuaci\u00f3n demuestran bien esta correlaci\u00f3n: las palabras que siguen a los puntos suelen ir en may\u00fascula y las que siguen a las comas suelen ir en min\u00fascula. Hay enfoques que sugieren una arquitectura con m\u00faltiples salidas [4]: una por tarea, respectivamente. Estos muestran que esta arquitectura supera a las arquitecturas de puntuaci\u00f3n y uso de may\u00fasculas por separado.<\/p>\n<p>Dadas las consideraciones anteriores, optamos por utilizar una \u00fanica red neuronal basada en GRU con dos salidas para la puntuaci\u00f3n y el uso de may\u00fasculas.<\/p>\n<p>Para tratar las palabras no incluidas en el vocabulario, utilizamos una t\u00e9cnica similar a SentencePiece [6] que divide las palabras desconocidas en tokens m\u00e1s peque\u00f1os o, en casos extremos, en caracteres. A continuaci\u00f3n, describimos los detalles y las consideraciones.<\/p>\n<h2>TruncBiRNN<\/h2>\n<p>La intuici\u00f3n y los experimentos demuestran que es imprescindible contar con el contexto futuro al desarrollar un modelo de puntuaci\u00f3n, ya que es m\u00e1s dif\u00edcil determinar los signos de puntuaci\u00f3n en una posici\u00f3n actual sin conocer las siguientes palabras. Para utilizar la informaci\u00f3n sobre los pr\u00f3ximos tokens y no tener que actualizar todos los estados ocultos para todos los tokens en la direcci\u00f3n hacia atr\u00e1s, decidimos truncar la direcci\u00f3n hacia atr\u00e1s en una ventana fija. En la direcci\u00f3n hacia delante, es solo una RNN normal. En la direcci\u00f3n hacia atr\u00e1s, solo consideramos una ventana fija en cada token y ejecutamos la RNN sobre esta ventana (figura 2). Usando esta ventana, podemos lograr una inferencia en tiempo constante para un nuevo token de entrada (debemos calcular un estado oculto en la direcci\u00f3n hacia adelante y n+1 en la direcci\u00f3n hacia atr\u00e1s).<\/p>\n<p><div id=\"attachment_373213\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-373213\" class=\"size-full wp-image-373213\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/TruncBiRNN-example.png\" alt=\"El ejemplo de TruncBiRNN\" width=\"904\" height=\"204\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/TruncBiRNN-example.png 904w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/TruncBiRNN-example-300x68.png 300w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/TruncBiRNN-example-768x173.png 768w\" sizes=\"auto, (max-width: 904px) 100vw, 904px\" \/><p id=\"caption-attachment-373213\" class=\"wp-caption-text\"><br \/>\n<\/a> Figura 2. En este ejemplo, para cada token actual, solo se consideran las dos siguientes para calcular el estado oculto en la direcci\u00f3n hacia atr\u00e1s.<\/p><\/div>.<\/p>\n<p>\u00a0<\/p>\n<p>Ahora para cada token, tenemos estados ocultos para las direcciones hacia adelante y hacia atr\u00e1s, respectivamente. Llamemos a este nivel TruncBiRNN o TruncBiGRU (ya que utilizamos GRU). Estos estados ocultos se pueden calcular en tiempo constante, lo que no depende de la longitud de la entrada. El funcionamiento en tiempo constante es fundamental para que el modelo pueda seguir el ritmo de los subt\u00edtulos en tiempo real.<\/p>\n<h2>Arquitectura<\/h2>\n<p>La arquitectura consta de una capa de incrustaci\u00f3n, una capa TruncBiGRU y una capa de GRU unidireccional, y un nivel totalmente conectado. Para la salida, utilizamos dos capas softmax para la puntuaci\u00f3n y el uso de may\u00fasculas, respectivamente (figura 3).<\/p>\n<div id=\"attachment_373223\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-373223\" class=\"size-full wp-image-373223\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Model-architecture-with-window-size-equal-to-two-tokens-for-TruncBiGRU.png\" alt=\"Figura 3. Arquitectura del modelo con un tama\u00f1o de ventana igual a dos tokens para TruncBiGRU\" width=\"962\" height=\"828\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Model-architecture-with-window-size-equal-to-two-tokens-for-TruncBiGRU.png 604w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Model-architecture-with-window-size-equal-to-two-tokens-for-TruncBiGRU-300x258.png 300w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Model-architecture-with-window-size-equal-to-two-tokens-for-TruncBiGRU-768x661.png 768w\" sizes=\"auto, (max-width: 962px) 100vw, 962px\" \/><p id=\"caption-attachment-373223\" class=\"wp-caption-text\"><br \/>\n<\/a> Figura 3. Arquitectura del modelo con tama\u00f1o de ventana igual a dos tokens para TruncBiGRU.<\/p><\/div>\n<p>\u00a0<\/p>\n<p>Para cada palabra, el modelo predice su uso de may\u00fascula y el signo de puntuaci\u00f3n despu\u00e9s de la palabra. Para sincronizar mejor estas dos salidas y predecir el uso de may\u00fasculas, tambi\u00e9n debemos conocer la incrustaci\u00f3n del token anterior (para restaurar el signo de puntuaci\u00f3n del paso anterior). Junto con una funci\u00f3n de p\u00e9rdida personalizada (consulte la siguiente secci\u00f3n), esto nos permite evitar los casos en los que se produce una palabra en min\u00fascula al principio de una oraci\u00f3n.<\/p>\n<p>Para la predicci\u00f3n de la puntuaci\u00f3n, tambi\u00e9n es \u00fatil obtener la predicci\u00f3n del uso de may\u00fasculas de la siguiente palabra. Por eso, concatenamos las incrustaciones actual y siguiente.<\/p>\n<p>Una capa de salida para la puntuaci\u00f3n predice la distribuci\u00f3n de todos los signos de puntuaci\u00f3n. Para nuestro modelo, es un conjunto:<\/p>\n<p><em>punto<\/em>: un punto en medio de una oraci\u00f3n que no implica necesariamente que la siguiente palabra deba ir en may\u00fascula (\u201ca.\u00a0m\u201d., \u201cD.C.\u201d, etc.)<\/p>\n<p><em>coma<\/em><\/p>\n<p><em>signo de interrogaci\u00f3n<\/em><\/p>\n<p><em>puntos suspensivos<\/em><\/p>\n<p><em>dos puntos<\/em><\/p>\n<p><em>guion<\/em><\/p>\n<p><em>punto final<\/em>: un punto al final de una oraci\u00f3n<\/p>\n<p>\u00a0<\/p>\n<p>Para el uso de may\u00fasculas, tenemos cuatro clases:<\/p>\n<p><em>min\u00fasculas<\/em><\/p>\n<p><em>may\u00fasculas<\/em>: todas las letras se escriben en may\u00fasculas (\u201cIEEE\u201d, \u201cNASA\u201d, etc.)<\/p>\n<p><em>may\u00fasculas<\/em><\/p>\n<p><em>mix_case<\/em>: para palabras como \u201ciPhone\u201d<\/p>\n<p><em>may\u00fascula inicial<\/em>: palabras que comienzan una oraci\u00f3n<\/p>\n<p>Las clases adicionales, \u201c<em>may\u00fascula inicial\u201d y <\/em>\u201c<em>punto final<\/em>\u201d, pueden parecer redundantes a primera vista, pero ayudan a aumentar la coherencia de las respuestas relacionadas con el uso de may\u00fasculas y la puntuaci\u00f3n. El \u201c<em>punto final\u201d <\/em>implica que la siguiente respuesta de asignaci\u00f3n de may\u00fasculas no puede ser \u201c<em>min\u00fascula\u201d,<\/em> mientras que \u201c<em>may\u00fascula inicial\u201d <\/em>significa que el signo de puntuaci\u00f3n anterior es un \u201c<em>punto final<\/em>\u201d o un signo de interrogaci\u00f3n. Estas clases desempe\u00f1an un papel importante en la funci\u00f3n de p\u00e9rdida.<\/p>\n<p>Funci\u00f3n de p\u00e9rdida:<br \/>\nTenemos que optimizar tanto el uso de may\u00fasculas como la puntuaci\u00f3n. Para lograrlo, utilizamos una funci\u00f3n de p\u00e9rdida de suma de logaritmos con un coeficiente:<\/p>\n<p><a href=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function.png\"><br \/>\n  <img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-373233\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function.png\" alt=\"Funci\u00f3n de p\u00e9rdida\" width=\"668\" height=\"38\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function.png 668w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-300x17.png 300w\" sizes=\"auto, (max-width: 668px) 100vw, 668px\" \/><br \/>\n<\/a><\/p>\n<p>Sin embargo, como ya se ha dicho, las salidas de una red neuronal pueden no estar perfectamente correlacionadas. Por ejemplo, el puntuador puede predecir un \u201c<em>punto final\u201d <\/em>para la palabra actual, pero el asignador de may\u00fasculas no predice una \u201c<em>may\u00fascula inicial<\/em>\u201d para el siguiente token. Este tipo de error, aunque poco frecuente, puede ser muy llamativo. Para solucionarlo, utilizamos un t\u00e9rmino de penalizaci\u00f3n adicional en la funci\u00f3n de p\u00e9rdida que penaliza este tipo de error:<\/p>\n<p><a href=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty.png\"><br \/>\n  <img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-373243\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty.png\" alt=\"penalizaci\u00f3n por desacuerdo\" width=\"904\" height=\"68\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty.png 904w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty-300x23.png 300w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/disagreement-penalty-768x58.png 768w\" sizes=\"auto, (max-width: 904px) 100vw, 904px\" \/><br \/>\n<\/a><\/p>\n<p>El primer t\u00e9rmino corresponde a la probabilidad de tener \u201c<em>may\u00fascula inicial<\/em>\u201d despu\u00e9s de un elemento que no es un \u201c<em>punto final\u201d, <\/em>y el segundo a la probabilidad de no tener \u201c<em>may\u00fascula inicial<\/em>\u201d despu\u00e9s de un \u201c<em>punto final\u201d<\/em>\u00a0 Esta penalizaci\u00f3n se suma sobre los tokens en los que se produce este error.<\/p>\n<p>Adem\u00e1s, pasamos dos tensores consecutivos de la capa anterior a las capas softmax. Con esto, podemos reducir eficientemente los t\u00e9rminos de penalizaci\u00f3n.<\/p>\n<p>Por \u00faltimo, tenemos la funci\u00f3n de p\u00e9rdida:<\/p>\n<p><a href=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-1.png\"><br \/>\n  <img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-373253\" src=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-1.png\" alt=\"Funci\u00f3n de p\u00e9rdida\" width=\"652\" height=\"60\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-1.png 652w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Loss-function-1-300x28.png 300w\" sizes=\"auto, (max-width: 652px) 100vw, 652px\" \/><br \/>\n<\/a><\/p>\n<h2>Entrenamiento<\/h2>\n<p>Para el entrenamiento, utilizamos transcripciones de texto de un conjunto de reuniones internas de Webex y datos de texto de Wikipedia.<\/p>\n<p>En primer lugar, los datos de entrenamiento se limpian y se dividen en oraciones. Durante el entrenamiento, cada muestra se genera a partir de oraciones consecutivas y se trunca con una longitud aleatoria a partir de una distribuci\u00f3n fija. Esto permite que el modelo vea las frases recortadas durante el entrenamiento, lo que permite al modelo lidiar con los resultados intermedios durante la inferencia. A continuaci\u00f3n, entrenamos el modelo con unos 300 megabytes de texto de Wikipedia y luego lo ajustamos con las transcripciones de las reuniones de Webex.<\/p>\n<p>El entrenamiento previo en Wikipedia ayuda a mejorar todas las clases de puntuaci\u00f3n, pero es particularmente \u00fatil en las clases de uso de may\u00fasculas. Sospechamos que esto se debe al gran n\u00famero de nombres propios del corpus de Wikipedia.<\/p>\n<p>Aplicamos la misma preparaci\u00f3n de datos a nuestros conjuntos de evaluaci\u00f3n concatenando oraciones y trunc\u00e1ndolas a longitudes aleatorias. Esto nos permite medir la precisi\u00f3n para lo que probablemente ver\u00edamos en los estados intermedios de la transcripci\u00f3n.<\/p>\n<h2>Conclusi\u00f3n<\/h2>\n<p>Utilizando t\u00e9cnicas relativamente sencillas con algunas personalizaciones de la arquitectura, como la GRU truncada y una penalizaci\u00f3n adicional en una funci\u00f3n de p\u00e9rdida, hemos desarrollado un modelo que puede ejecutarse en l\u00ednea. La experiencia de lectura de los subt\u00edtulos en directo mejora notablemente con los signos de puntuaci\u00f3n y el uso de may\u00fasculas en tiempo real.<\/p>\n<p><strong>Referencias<\/strong><\/p>\n<p>[1] A. Gravano, M. Jansche y M. Bacchiani, \u201cRestoring punctuation and capitalization in transcribed speech,\u201d en ICASSP 2009, 2009, pp. 4741\u20134744.<\/p>\n<p>[2] Monica Sunkara, Srikanth Ronanki, Kalpit Dixit, Sravan Bodapati, Katrin Kirchhoff, \u201cRobust Prediction of Punctuation and Truecasing for Medical ASR\u201d<\/p>\n<p>[3] Tilk, Ottokar y Alum\u00e4e, Tanel. (2016). Bidirectional Recurrent Neural Network with Attention Mechanism for Punctuation Restoration. 3047-3051. 10.21437\/Interspeech.2016-1517.<\/p>\n<p>[4] Vardaan Pahuja, Anirban Laha, Shachar Mirkin, Vikas Raykar, Lili Kotlerman, Guy Lev \u201cJoint Learning of Correlated Sequence Labelling Tasks Using Bidirectional Recurrent Neural Networks\u201d<\/p>\n<p>[5] Wang, Peilu &#038; Qian, Yao y Soong, Frank y He, Lei y Zhao, Hai. (2015). Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network.<\/p>\n<p>[6] Lita, Lucian y Ittycheriah, Abe y Roukos, Salim y Kambhatla, Nanda. (2003). tRuEcasIng. 10.3115\/1075096.1075116.<\/p>\n<p>[7] https:\/\/github.com\/google\/sentencepiece<\/p>\n<p><a href=\"https:\/\/www.webex.com\/video-conferencing\">Reg\u00edstrese en Webex<\/a><\/p>\n<p>Visite nuestra <a href=\"https:\/\/www.webex.com\/\">p\u00e1gina de inicio<\/a> o <a href=\"https:\/\/www.webex.com\/contact-us.html\">p\u00f3ngase en contacto con nosotros<\/a> directamente para obtener ayuda.<\/p>\n<p><span data-ccp-props=\"{&quot;201341983&quot;:0,&quot;335559739&quot;:160,&quot;335559740&quot;:259}\"><br \/>\n  <a href=\"https:\/\/www.webex.com\/?utm_source=Influence&#038;utm_medium=EarnedContent&#038;utm_campaign=FutureOfWork\">Haga clic aqu\u00ed<\/a> para obtener m\u00e1s informaci\u00f3n sobre las ofertas de Webex y para inscribirse en una cuenta gratuita.<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Introducci\u00f3n Los sistemas de reconocimiento autom\u00e1tico del habla (ASR, por sus siglas en ingl\u00e9s) proporcionan transcripciones de texto. Normalmente, se [&hellip;]<\/p>\n","protected":false},"author":5546,"featured_media":373202,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"footnotes":""},"categories":[1535],"tags":[4688,573],"class_list":["post-373809","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-engineering-es","tag-aprendizaje-automatico","tag-artificial-intelligence"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.1.1 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>El posprocesamiento en los sistemas de reconocimiento autom\u00e1tico del habla | Webex Blog<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"El posprocesamiento en los sistemas de reconocimiento autom\u00e1tico del habla | Webex Blog\" \/>\n<meta property=\"og:description\" content=\"Introducci\u00f3n Los sistemas de reconocimiento autom\u00e1tico del habla (ASR, por sus siglas en ingl\u00e9s) proporcionan transcripciones de texto. Normalmente, se [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/\" \/>\n<meta property=\"og:site_name\" content=\"Webex Blog\" \/>\n<meta property=\"article:published_time\" content=\"2021-09-14T15:59:41+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png\" \/>\n\t<meta property=\"og:image:width\" content=\"975\" \/>\n\t<meta property=\"og:image:height\" content=\"554\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"Pavel Pekichev\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"Pavel Pekichev\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data2\" content=\"10 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/\"},\"author\":{\"name\":\"Pavel Pekichev\",\"@id\":\"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f\"},\"headline\":\"El posprocesamiento en los sistemas de reconocimiento autom\u00e1tico ...\",\"datePublished\":\"2021-09-14T15:59:41+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/\"},\"wordCount\":1949,\"commentCount\":0,\"image\":{\"@id\":\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png\",\"keywords\":[\"Aprendizaje autom\u00e1tico\",\"Artificial Intelligence\"],\"articleSection\":[\"Ingenier\u00eda\"],\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/\",\"url\":\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/\",\"name\":\"El posprocesamiento en los sistemas de reconocimiento autom\u00e1tico del habla | Webex Blog\",\"isPartOf\":{\"@id\":\"https:\/\/blog.webex.com\/es\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png\",\"datePublished\":\"2021-09-14T15:59:41+00:00\",\"author\":{\"@id\":\"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f\"},\"breadcrumb\":{\"@id\":\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#primaryimage\",\"url\":\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png\",\"contentUrl\":\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png\",\"width\":975,\"height\":554,\"caption\":\"Post-processing in Automatic Speech Recognition systems\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/blog.webex.com\/es\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"El posprocesamiento en los sistemas de reconocimiento autom\u00e1tico ...\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/blog.webex.com\/es\/#website\",\"url\":\"https:\/\/blog.webex.com\/es\/\",\"name\":\"Webex Blog\",\"description\":\"Webex by Cisco powers collaboration through industry-leading video conferencing, cloud calling and contact center solutions\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/blog.webex.com\/es\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"es\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f\",\"name\":\"Pavel Pekichev\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/blog.webex.com\/es\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g\",\"caption\":\"Pavel Pekichev\"},\"description\":\"Pavel Pekichev is a Machine Learning Scientist at Cisco working on speech recognition systems. Currently, his main focus is on the post-processing of speech-to-text models. Pavel graduated from Moscow State University with a degree in mathematics and statistics. Prior to Cisco, Pavel worked on a real-time bidding platform and recommendation systems. He has given several talks at industry conferences.\",\"sameAs\":[\"https:\/\/ru.linkedin.com\/in\/pavel-pekichev-7a078973\"],\"url\":\"https:\/\/blog.webex.com\/es\/contributors\/pavelp\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"El posprocesamiento en los sistemas de reconocimiento autom\u00e1tico del habla | Webex Blog","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/","og_locale":"es_ES","og_type":"article","og_title":"El posprocesamiento en los sistemas de reconocimiento autom\u00e1tico del habla | Webex Blog","og_description":"Introducci\u00f3n Los sistemas de reconocimiento autom\u00e1tico del habla (ASR, por sus siglas en ingl\u00e9s) proporcionan transcripciones de texto. Normalmente, se [&hellip;]","og_url":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/","og_site_name":"Webex Blog","article_published_time":"2021-09-14T15:59:41+00:00","og_image":[{"width":975,"height":554,"url":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","type":"image\/png"}],"author":"Pavel Pekichev","twitter_misc":{"Escrito por":"Pavel Pekichev","Tiempo de lectura":"10 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#article","isPartOf":{"@id":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/"},"author":{"name":"Pavel Pekichev","@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f"},"headline":"El posprocesamiento en los sistemas de reconocimiento autom\u00e1tico ...","datePublished":"2021-09-14T15:59:41+00:00","mainEntityOfPage":{"@id":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/"},"wordCount":1949,"commentCount":0,"image":{"@id":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#primaryimage"},"thumbnailUrl":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","keywords":["Aprendizaje autom\u00e1tico","Artificial Intelligence"],"articleSection":["Ingenier\u00eda"],"inLanguage":"es","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/","url":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/","name":"El posprocesamiento en los sistemas de reconocimiento autom\u00e1tico del habla | Webex Blog","isPartOf":{"@id":"https:\/\/blog.webex.com\/es\/#website"},"primaryImageOfPage":{"@id":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#primaryimage"},"image":{"@id":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#primaryimage"},"thumbnailUrl":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","datePublished":"2021-09-14T15:59:41+00:00","author":{"@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f"},"breadcrumb":{"@id":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/"]}]},{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#primaryimage","url":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","contentUrl":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/09\/Post-processor-model-sign-example.png","width":975,"height":554,"caption":"Post-processing in Automatic Speech Recognition systems"},{"@type":"BreadcrumbList","@id":"https:\/\/blog.webex.com\/es\/engineering-es\/el-posprocesamiento-en-los-sistemas-de-reconocimiento-automatico-del-habla\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/blog.webex.com\/es\/"},{"@type":"ListItem","position":2,"name":"El posprocesamiento en los sistemas de reconocimiento autom\u00e1tico ..."}]},{"@type":"WebSite","@id":"https:\/\/blog.webex.com\/es\/#website","url":"https:\/\/blog.webex.com\/es\/","name":"Webex Blog","description":"Webex by Cisco powers collaboration through industry-leading video conferencing, cloud calling and contact center solutions","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/blog.webex.com\/es\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"es"},{"@type":"Person","@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/1428e2402190d3d3bd831f586e51567f","name":"Pavel Pekichev","image":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/5b7194efed20413c11f35689646743f125e3aae08153b8bcbaa2b3284e253092?s=96&d=wp_user_avatar&r=g","caption":"Pavel Pekichev"},"description":"Pavel Pekichev is a Machine Learning Scientist at Cisco working on speech recognition systems. Currently, his main focus is on the post-processing of speech-to-text models. Pavel graduated from Moscow State University with a degree in mathematics and statistics. Prior to Cisco, Pavel worked on a real-time bidding platform and recommendation systems. He has given several talks at industry conferences.","sameAs":["https:\/\/ru.linkedin.com\/in\/pavel-pekichev-7a078973"],"url":"https:\/\/blog.webex.com\/es\/contributors\/pavelp\/"}]}},"_links":{"self":[{"href":"https:\/\/blog.webex.com\/es\/wp-json\/wp\/v2\/posts\/373809","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.webex.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.webex.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.webex.com\/es\/wp-json\/wp\/v2\/users\/5546"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.webex.com\/es\/wp-json\/wp\/v2\/comments?post=373809"}],"version-history":[{"count":0,"href":"https:\/\/blog.webex.com\/es\/wp-json\/wp\/v2\/posts\/373809\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.webex.com\/es\/wp-json\/wp\/v2\/media\/373202"}],"wp:attachment":[{"href":"https:\/\/blog.webex.com\/es\/wp-json\/wp\/v2\/media?parent=373809"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.webex.com\/es\/wp-json\/wp\/v2\/categories?post=373809"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.webex.com\/es\/wp-json\/wp\/v2\/tags?post=373809"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}