La nueva IA de Microsoft puede simular la voz de cualquiera con 3 segundos de audio

Agrandar

/ Una imagen generada por IA de la silueta de una persona.

Ars Technica

El jueves, los investigadores de Microsoft anunciaron un nuevo modelo de IA de texto a voz llamado VALLE que puede simular de cerca la voz de una persona cuando se le da una muestra de audio de tres segundos. Una vez que aprende una voz específica, VALL-E puede sintetizar el audio de esa persona diciendo cualquier cosa, y hacerlo de una manera que intente preservar el tono emocional del hablante.

Sus creadores especulan que VALL-E podría usarse para aplicaciones de texto a voz de alta calidad, edición de voz donde la grabación de una persona podría editarse y cambiarse de una transcripción de texto (haciéndola decir algo que originalmente no dijo), y creación de contenido de audio cuando se combina con otros modelos generativos de IA como GPT-3.

Microsoft llama a VALL-E un “modelo de lenguaje de códec neuronal” y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de texto a voz que normalmente sintetizan el habla mediante la manipulación de formas de onda, VALL-E genera códigos de códec de audio discretos a partir de mensajes de texto y acústicos. Básicamente, analiza cómo suena una persona, divide esa información en componentes discretos (llamados “tokens”) gracias a EnCodec y usa datos de entrenamiento para comparar lo que “sabe” sobre cómo sonaría esa voz si pronunciara otras frases fuera de las tres. -segunda muestra. O, como dice Microsoft en el VALLE-E papel

Para sintetizar voz personalizada (p. ej., TTS de disparo cero), VALL-E genera los tokens acústicos correspondientes condicionados por los tokens acústicos de la grabación inscrita de 3 segundos y el indicador de fonema, que restringen la información del hablante y el contenido, respectivamente. Finalmente, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el decodificador de códec neural correspondiente.

Microsoft entrenó las capacidades de síntesis de voz de VALL-E en una biblioteca de audio, ensamblada por Meta, llamada LibriLight. Contiene 60.000 horas de habla en inglés de más de 7.000 hablantes, en su mayoría extraídos de LibriVox audiolibros de dominio público. Para que VALL-E genere un buen resultado, la voz en la muestra de tres segundos debe coincidir estrechamente con una voz en los datos de entrenamiento.

En el VAL-E sitio web de ejemplo, Microsoft proporciona docenas de ejemplos de audio del modelo de IA en acción. Entre las muestras, el “Speaker Prompt” es el audio de tres segundos proporcionado a VALL-E que debe imitar. La “Verdad básica” es una grabación preexistente de ese mismo hablante diciendo una frase en particular con fines de comparación (algo así como el “control” en el experimento). La “línea de base” es un ejemplo de síntesis proporcionada por un método convencional de síntesis de texto a voz, y la muestra “VALL-E” es el resultado del modelo VALL-E.

Agrandar / Un diagrama de bloques de VALL-E proporcionado por investigadores de Microsoft.

microsoft

Mientras usaban VALL-E para generar esos resultados, los investigadores solo introdujeron la muestra de tres segundos “Speaker Prompt” y una cadena de texto (lo que querían que dijera la voz) en VALL-E. Así que compare la muestra “Ground Truth” con la muestra “VALL-E”. En algunos casos, las dos muestras son muy cercanas. Algunos resultados de VALL-E parecen generados por computadora, pero otros podrían confundirse potencialmente con el habla de un ser humano, que es el objetivo del modelo.

Además de preservar el timbre vocal y el tono emocional de un orador, VALL-E también puede imitar el “ambiente acústico” del audio de muestra. Por ejemplo, si la muestra proviene de una llamada telefónica, la salida de audio simulará las propiedades acústicas y de frecuencia de una llamada telefónica en su salida sintetizada (esa es una forma elegante de decir que también sonará como una llamada telefónica). y el de Microsoft muestras (en la sección “Síntesis de la Diversidad”) demuestran que VALL-E puede generar variaciones en el tono de voz cambiando la semilla aleatoria utilizada en el proceso de generación.

Tal vez debido a la capacidad de VALL-E de alimentar potencialmente las travesuras y el engaño, Microsoft no ha proporcionado el código de VALL-E para que otros experimenten, por lo que no pudimos probar las capacidades de VALL-E. Los investigadores parecen conscientes del daño social potencial que podría traer esta tecnología. Para la conclusión del artículo, escriben:

“Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico. Para mitigar tales riesgos, es posible construir un modelo de detección para discriminar si un clip de audio fue sintetizado por VALL-E. También pondremos Principios de IA de Microsoft en la práctica cuando se desarrollen más los modelos”.

Leave a Reply Cancel reply