Los actores de voz de IA suenan más humanos que nunca y están listos para contratar

La publicación del blog de la compañía gotea con el entusiasmo de un infomercial estadounidense de los noventa. WellSaid Labs describe lo que los clientes pueden esperar de sus “ocho nuevos actores de voz digitales”. Tobin es “enérgico y perspicaz”. Paige es “serena y expresiva”. Ava es “refinada, segura de sí misma y profesional”.

Cada uno se basa en un actor de voz real, cuya imagen (con consentimiento) se ha conservado mediante IA. Las empresas ahora pueden autorizar estas voces para decir lo que necesiten. Simplemente introducen un poco de texto en el motor de voz y, a partir de ahí, se grabará un clip de audio nítido de una interpretación con un sonido natural.

WellSaid Labs, una startup con sede en Seattle que surgió de la investigación sin fines de lucro Allen Institute of Artificial Intelligence, es la última firma que ofrece voces de inteligencia artificial a sus clientes. Por ahora, se especializa en voces para videos corporativos de e-learning. Otras startups hacen voces para asistentes digitales, operadores de call center, e incluso personajes de videojuegos

.

No hace mucho tiempo, esas voces profundamente falsas tenían una pésima reputación por su uso en llamadas de estafa y engaño de internet. Pero la mejora de su calidad ha despertado el interés de un número creciente de empresas. Los avances recientes en el aprendizaje profundo han hecho posible replicar muchas de las sutilezas del habla humana. Estas voces se detienen y respiran en todos los lugares correctos. Pueden cambiar su estilo o emoción. Puede detectar el truco si hablan durante demasiado tiempo, pero en clips de audio cortos, algunos se han vuelto indistinguibles de los humanos.

Las voces de IA también son baratas, escalables y fáciles de trabajar. A diferencia de una grabación de un actor de voz humano, las voces sintéticas también pueden actualizar su guión en tiempo real, abriendo nuevas oportunidades para personalizar la publicidad.

Pero el surgimiento de voces falsas hiperrealistas no está libre de consecuencias. Los actores de la voz humana, en particular, se han preguntado qué significa esto para sus medios de vida.

Cómo fingir una voz

Las voces sintéticas han existido por un tiempo. Pero los viejos, incluidas las voces del original Siri y Alexa, simplemente pegó palabras y sonidos para lograr un efecto robótico torpe. Conseguir que suenen más naturales fue una laboriosa tarea manual.

El aprendizaje profundo cambió eso. Los desarrolladores de voz ya no necesitaban dictar el ritmo, la pronunciación o la entonación exactos del discurso generado. En cambio, podrían introducir unas pocas horas de audio en un algoritmo y hacer que el algoritmo aprenda esos patrones por sí solo.

“Si soy Pizza Hut, ciertamente no puedo sonar como Domino’s, y ciertamente no puedo sonar como Papa John’s”.

Rupal Patel, fundador y CEO de VocaliD

A lo largo de los años, los investigadores han utilizado esta idea básica para construir motores de voz que son cada vez más sofisticados. El que WellSaid Labs construyó, por ejemplo, utiliza dos modelos principales de aprendizaje profundo. El primero predice, a partir de un pasaje de texto, los trazos generales de cómo sonará un hablante, incluidos el acento, el tono y el timbre. El segundo completa los detalles, incluidas las respiraciones y la forma en que la voz resuena en su entorno.

Sin embargo, hacer una voz sintética convincente requiere algo más que presionar un botón. Parte de lo que hace que una voz humana sea tan humana es su inconsistencia, expresividad y capacidad para pronunciar las mismas líneas en estilos completamente diferentes, según el contexto.

Capturar estos matices implica encontrar los actores de voz adecuados para proporcionar los datos de entrenamiento adecuados y ajustar los modelos de aprendizaje profundo. WellSaid dice que el proceso requiere al menos una o dos horas de audio y algunas semanas de trabajo para desarrollar una réplica sintética que suene realista.

Las voces de IA se han vuelto particularmente populares entre las marcas que buscan mantener un sonido consistente en millones de interacciones con los clientes. Con la ubicuidad de los altavoces inteligentes en la actualidad y el aumento de los agentes de servicio al cliente automatizados, así como los asistentes digitales integrados en automóviles y dispositivos inteligentes, las marcas pueden necesitar producir más de cien horas de audio al mes. Pero tampoco quieren seguir utilizando las voces genéricas que ofrece la tecnología tradicional de conversión de texto a voz, una tendencia que se aceleró durante la pandemia a medida que más y más clientes se saltaban las interacciones en la tienda para interactuar virtualmente con las empresas.

“Si soy Pizza Hut, ciertamente no puedo sonar como Domino’s, y ciertamente no puedo sonar como Papa John’s”, dice Rupal Patel, profesor de Northeastern University y fundador y director ejecutivo de VocaliD, que promete construir voces personalizadas que coinciden con la identidad de marca de una empresa. “Estas marcas han pensado en sus colores. Han pensado en sus fuentes. Ahora también tienen que empezar a pensar en cómo suena su voz “.

Mientras que las empresas solían tener que contratar diferentes actores de voz para diferentes mercados (el noreste frente al sur de EE. UU. O Francia frente a México), algunas empresas de inteligencia artificial de voz pueden manipular el acento o cambiar el idioma de una sola voz de diferentes maneras. Esto abre la posibilidad de adaptar los anuncios en las plataformas de transmisión en función de quién esté escuchando, cambiando no solo las características de la voz sino también las palabras que se están pronunciando. Un anuncio de cerveza podría decirle a un oyente que pase por un pub diferente dependiendo de si se está reproduciendo en Nueva York o Toronto, por ejemplo. Resemble.ai, que diseña voces para anuncios y asistentes inteligentes, dice que ya está trabajando con los clientes para lanzar anuncios de audio personalizados en Spotify y Pandora.

Las industrias del juego y el entretenimiento también están viendo los beneficios. Sonantic, una firma que se especializa en voces emotivas que pueden reír y llorar o susurrar y gritar, trabaja con creadores de videojuegos y estudios de animación para proporcionar las voces en off de sus personajes. Muchos de sus clientes utilizan las voces sintetizadas solo en la preproducción y cambian a actores de voz reales para la producción final. Pero Sonantic dice que algunos han comenzado a usarlos a lo largo del proceso, quizás para personajes con menos líneas. Resemble.ai y otros también han trabajado con películas y programas de televisión para arreglar las actuaciones de los actores cuando las palabras se confunden o se pronuncian mal.

Leave a Reply

Your email address will not be published. Required fields are marked *