En esta edición del Blog de DINECOM, revisaremos el sistema de traducción en vivo que Amazon trae para su exitoso dispositivo Alexa.

Amazon anunció recientemente la llegada de una nueva función de traducción en vivo para Alexa, que permite a las personas hablar en diferentes idiomas para conversar a través de Alexa. La IA interna se convierte en su intérprete, traduciendo cada lado de la conversación.

Con la llegada de la nueva función, un cliente podrá pedirle a Alexa que inicie sesiones con traducción usando un par de idiomas. Durante la conversación, Alexa puede identificar automáticamente el idioma que se habla y traducir en tiempo real. El lanzamiento comienza con 6 pares de idiomas, incluidos hindi, portugués brasileño, italiano, alemán, francés, español e inglés.

Live Translation aprovecha varias herramientas existentes en Amazon, incluido el sistema ASR para Alexa, Alexa Text-to-Speech y Amazon Translate.

Descubriendo la traducción en vivo de Alexa

Durante una sesión de Live Translation, Alexa usa dos modos ASR junto con otro modelo para la identificación del idioma. La tecnología puede manejar automáticamente dos modelos ASR a la vez y, según el modelo de ID del idioma, solo una salida llega al motor de traducción, lo que reduce el riesgo de latencia para la solicitud de traducción.

Durante la producción, Amazon descubrió que el modelo de ID de idioma funciona mejor cuando se basa tanto en información de voz acústica como en la salida de dos modelos de ASR. El ASR puede ayudar a los hablantes de un idioma no nativo que tengan propiedades acústicas consistentes en su habla.

Una vez que el sistema de identificación de idioma ha seleccionado, se procesa a través de Amazon Translate y se pasa a Alexa para su reproducción a través de texto a voz. Como la mayoría de los sistemas ASR, los que Amazon utiliza para la traducción en vivo incluyen un modelo de lenguaje y acústico. El modelo de lenguaje codifica probabilidades para cadenas de palabras específicas, mientras que el modelo acústico convierte el audio en fonemas.

Entrega de un resultado detallado

Cada uno de los sistemas ASR en la solución de Amazon también viene con dos modelos de lenguaje, una opción tradicional para probabilidades codificadas de cadenas de palabras cortas y un modelo neuronal. El modelo Neural puede manejar cadenas más largas. Estos modelos han sido entrenados para manejar una amplia gama de temas de habla conversacional.

Amazon también modificó el puntero final en Alexa, que determina cuándo los clientes terminan de hablar. Esto generalmente distingue entre el final de una oración y una pausa. Sin embargo, para Live Translation, el puntero ahora puede tolerar pausas más largas de personas en conversaciones más largas.

El sistema de traducción automática neuronal de Amazon Translate se diseñó anteriormente para funcionar con la entrada de texto. En el futuro, Amazon continuará explorando nuevas formas de mejorar aún más la experiencia de Live Translation, trabajando con cosas como modelos de aprendizaje semi-supervisados.

Amazon ha explicado además que para mejorar la solidez y la fluidez de la traducción, está trabajando para adaptar el motor de traducción neuronal para administrar más datos de voz conversacional, así como generar traducciones con mejor contexto. Esto puede incluir tono de voz y traducciones formales o informales.

Si tu empresa requiere de un traductor simultaneo como Alexa de Amazon, ponte en contacto con nosotros. Juntos buscaremos la solución que mejor se adapte a tu requerimiento.