LA INTELIGENCIA ARTIFICIAL CONQUISTÓ LA VOZ HUMANA

Desde hace bastante tiempo se ha intentado reproducir el habla humana a través de medios digitales. Una de las primeras voces robóticas, fue el sintetizador de texto de Loquendo, nació en 1975 y fue llamado MUSA, su fluidez y vocalización no eran para nada perfectos, pero fue el punto de partida para el desarrollo de los sintetizadores digitales de voz, es decir, el software que transforma el texto escrito en voz artificial generada por ordenador; y de esta forma nació lo que se denomina TTS (Text-to-speach). Lo que busca esta tecnología es que el computador “lea” en voz alta un texto.

Paralelamente otras empresas desarrollaron sus propias tecnologías de TTS, entre ellas IBM, Microsoft y hasta la empresa de juguetes Mattel. Pero al otro lado del mundo destacó una tecnología similar, aunque con una gran diferencia sobre los sintetizadores de voz japoneses buscaban crear cantantes virtuales, el más famoso de ellos es Vocaloid, que llegó a crear personajes ficticios digitales, que a través de un holograma presentan conciertos alrededor del mundo usando una voz producida en computador.

Los avances en esta tecnología han sido muchos, pero hace poco Google sorprendió con Tacotron 2, una nueva tecnología de sintetizador de voz que va mucho más allá, su fluidez y fonética es tan perfecta que es prácticamente indistinguible de una voz humana. A diferencia de sus predecesoras, Tacotron 2 usa un sistema de red neuronal digital de IA (Inteligencia Artificial), que le permite generar espectrogramas de las oraciones, esto quiere decir que traduce las palabras en un mapa visual que analiza las ondas de las palabras y oraciones, de esta forma puede darle diferentes entonaciones y cadencias a las palabras dependiendo de su contexto.

Esta tecnología puede determinar cómo funciona cada palabra en la oración, es decir, evalúa gramaticalmente si una palabra es un verbo o un sustantivo y dependiendo de la composición sintáctica, da diferentes entonaciones apropiadas para la intención de cada situación.

A diferencia de otras TTS que usan una tecnología que almacena fonos y difonos, es decir, unidades básicas fonéticas que luego las une dependiendo de la palabra requerida, en el caso de Tacotron 2, su inteligencia artificial le permite compaginar una pronunciación dedicada y determinada para la intención de cada oración, así, si detecta que se trata de una interrogación, le dará la fonética y cadencia apropiada para esta determinada situación.

Una de las cualidades más sobresalientes de la tecnología que usa Tacotron 2 es que le permite aprender, su red neuronal consiste en una gama inmensa de posibilidades que genera algoritmos que se adaptan a cada situación requerida por el usuario. Por esta misma razón, Tacotron 2 sigue en adiestramiento, pero los resultados que Google ha expuesto a la luz son impresionantes. En uno de sus comunicados más recientes exponía la impresionante similitud con la voz humana, expusieron una serie de parejas de clips de audio, uno de ellos generado por Tacotron 2 y el otro leído por la empleada de Google que prestó su voz para el prototipo de esta tecnología, en dicho comunicado, la empresa no especificaba cuál era el clip generado por computador y cual el real, la tarea de diferenciarlos es en verdad titánica.

Tacotron 2 significa un gran avance en las tecnologías de inteligencia artificial, y podrá ser aplicada a múltiples ramas, desde las telecomunicaciones, pasando por los asistentes virtuales como Siri o Alexa, hasta mejorar las formas de comunicación de personas con discapacidades relacionadas con el habla.

Una de las personas más famosas por usar una TTS para comunicarse, es el físico teórico y astrofísico Stephen Hawking, su voz robótica es todo un ícono por el que se lo reconoce alrededor del mundo.

¿Conoces alguna otra tecnología que use sistemas de redes neuronales?