Google está trabajando en un nuevo traductor de voz más rápido, con el objetivo de evitar errores al reducir los pasos intermedios y tratar la traducción como un sistema de voz a voz, sin hacer una transcripción a texto.
Los de traducción son un buen ejemplo de servicios que permiten desarrollar y poner a prueba diversos modelos de inteligencia artificial. Y eso es lo que lleva años haciendo Google, como propietaria del servicio de traducción online más popular del planeta.
Los últimos avances obtenidos por los de Mountain View, en este caso, no tienen tanto que ver con la habitual traducción de texto a texto, sino de voz a voz.
Y es que Google ha conseguido superar su antiguo sistema de ‘traducción en cascada’, basado en tres pasos: la conversión de la voz en texto, la traducción en sí, y volver a sintetizar ésta como voz en el idioma de destino elegido.
Los primeros modelos de traducción de extremo a extremo se crearon en 2016, y un año más tarde ya se había demostrado que este tecnología podía dar mejores resultados que los modelos de cascada.
Una tecnología revolucionaria que aún posee margen de mejora
El nuevo sistema, mucho más preciso, ha sido bautizado con el nombre Translatotron, y permite la traducción directa de voz a voz. Se basa en el procesamiento de la voz como un espectrograma, utilizando un vocoder neuronal para dar forma al sonido de salida y dando la opción de usar un codificador pre-entrenado con el fin de generar una voz similar a la original.
Esquema de funcionamiento de Translatotron (vía Google)
Presenta, además, otras ventajas: se evitan ciertos errores de composición de las frases, que aparecían como consecuencia de los pasos intermedios del modelo de cascada, y maneja mejor las palabras que no requieren de traducción (como los nombres propios).
Google ha compartido en su blog corporativo sobre IA los primeros ejemplos del uso de Translatotron, recurriendo a dos breves grabaciones en español (la primera de ellas tan sencilla como “¿Qué tal? Eh… yo soy Guillermo, ¿cómo estás?”), que aparecen traducidas tanto mediante el antiguo sistema en cascada como mediante el nuevo.
En el ejemplo proporcionado, claro está, la traducción es precisa; lo es en general con todas las frases cortas, según Google, aunque reconocen que todavía tienen que trabajar más en aquellos casos en las que el emisor habla demasiado bajo o, sencillamente, no es capaz de expresar correctamente la idea (cosa relativamente habitual en el lenguaje hablado).
Fuente: Xataka