Con Koe Recast, puedes cambiar tu voz tan fácilmente como tu ropa

Una forma de onda colorida que en realidad no tiene nada que ver con Koe: Recast.
Agrandar /
Una forma de onda colorida se arremolina dramáticamente a través del espacio latente, buscando kawaii.

gracias a un demostración web de una nueva herramienta de IA llamada Koe Recast, puede transformar hasta 20 segundos de su voz en diferentes estilos, incluido un personaje de anime, un narrador masculino profundo, un susurro ASMR y más. Es una vista previa reveladora de un posible producto comercial que actualmente se encuentra en pruebas alfa privadas.

Koe Recast surgió recientemente de un desarrollador con sede en Texas llamado Cerca de Asara, quien está trabajando de forma independiente para desarrollar una aplicación de escritorio con el objetivo de permitir que las personas cambien sus voces en tiempo real a través de otras aplicaciones como Zoom y Discord. “Mi objetivo es ayudar a las personas a expresarse de cualquier manera que las haga más felices”, dijo Near en una breve entrevista con Ars.

Varias demostraciones en el Su página web muestra clips alterados de Mark Zuckerberg hablando sobre la realidad aumentada con una voz femenina, una voz profunda de narrador masculino y una voz aguda de anime, todo impulsado por Recast.

Este tipo de tecnología realista de transformación de voz impulsada por IA no es nueva. Google hizo olas con tecnología similar en 2018, y las falsificaciones de audio de celebridades han causado controversia durante varios años. Pero ver esta capacidad en una startup independiente financiada por una persona: “He financiado este proyecto completamente por mí mismo hasta ahora”, dijo Near, muestra cuán lejos ha llegado la tecnología de síntesis vocal de IA y quizás insinúe cuán cerca podría estar la transformación de la voz. adopción generalizada a través de un lanzamiento de código abierto o de bajo costo.

Cuando se le preguntó qué tipo específico de IA impulsa la transformación de voz de Recast bajo el capó, Near retuvo los detalles, pero generalizó cómo funciona: “Podemos sumergirnos y alterar las características de las voces dentro del espacio de incrustación que hemos creado. Nuestro El objetivo, entonces, es modificar las partes del audio que corresponden al estilo o timbre personal de un orador mientras se conservan las partes del audio que corresponden al contenido hablado, como la prosodia y las palabras. Esto nos permite cambiar el estilo de la voz de alguien para cualquier otro estilo, incluido su género percibido, edad, etnia, etc.

Recast admite 10 voces diferentes y hay más en camino. “Actualmente no está decidido si ofreceremos voces existentes de celebridades u otras personas conocidas”, dijo Near.

Sin embargo, ofrecer voces de celebridades (o aquellas que imitan a personas vivas que no son celebridades) puede plantear cuestiones éticas y legales. Cuando se le preguntó sobre el posible uso indebido de Recast, Near respondió: “Al igual que con cualquier tecnología, es posible que haya tanto aspectos positivos como negativos, pero creo que la gran mayoría de la humanidad está formada por personas maravillosas y se beneficiarán enormemente de esto”. Near también señaló que Recast incluye una política de Términos de servicio que prohíbe el uso ilegal y odioso.

En cuanto a la línea de tiempo de lanzamiento, Near está buscando opciones comerciales, pero no descarta un lanzamiento de código abierto, que podría tener un impacto similar a Stable Diffusion al poner audios falsos realistas en manos de muchos sin restricciones estrictas. “Estamos explorando algunas estrategias de monetización”, dijo Near. “Si los modelos de ganancias que tengo en mente no funcionan, el código abierto de esta tecnología puede ser una opción en el futuro”.

A medida que la tecnología de aprendizaje profundo continúa eliminando el concepto del siglo XX (o algunos podrían decir “espejismo”) de los medios como un registro fijo y preciso de la realidad, estamos viendo un futuro cercano en el que las representaciones digitales de la voz de un ser humano vivo, al igual que las imágenes y los videos, serán una cosa más que no se puede tomar al pie de la letra sin confianza significativa en la fuente. Aún así, la tecnología podría empoderar a muchas personas que de lo contrario podría ser discriminado mientras hace negocios, o simplemente se divierte, en línea.

Leave a Reply

Your email address will not be published. Required fields are marked *