Una startup de inteligencia artificial me hizo un deepfake hiperrealista que es tan bueno que da miedo

Cuantos más puntos de datos tenga el sistema de inteligencia artificial sobre movimientos faciales, microexpresiones, inclinaciones de cabeza, parpadeos, encogimientos de hombros y movimientos de manos, más realista será el avatar.

DAVID VINTINER

Luego me pide que lea un guión de un YouTuber ficticio en diferentes tonos, dirigiéndome sobre el espectro de emociones que debo transmitir. Primero se supone que debo leerlo de una manera neutral e informativa, luego de una manera alentador a, de una manera molesta y quejosa, y finalmente de una manera entusiasmada y convincente.

“Hola a todos, bienvenidos de nuevo a elevarla con tu anfitriona, Jess Mars. Es genial tenerte aquí. Estamos a punto de abordar un tema que es bastante delicado y, sinceramente, nos toca muy de cerca: lidiar con las críticas en nuestro viaje espiritual”, leí en el teleprompter, al mismo tiempo que intentaba visualizarme despotricando sobre algo con mi pareja durante la versión de queja. . “No importa dónde mir es, parece que siempre hay una voz crítica lista para intervenir, ¿no es así?”

No seas basura, no seas basura, no seas basura.

“Eso fue realmente bueno. Lo estaba viendo y pensé: ‘Bueno, esto es cierto’. Definitivamente se está quejando’”, dice Oshinyemi, alentadora. La próxima vez, tal vez agregue algo de criterio, sugiere.

Filmamos varias tomas con diferentes variaciones del guión. En algunas versiones se me permite mover las manos. En otros, Oshinyemi me pide que sostenga un alfiler de metal entre mis dedos mientras lo hago. Esto es para probar los “bordes” de las capacidades de la tecnología cuando se trata de comunicarse con las manos, dice Oshinyemi.

Históricamente, hacer que los avatares de IA parezcan naturales y hacer coincidir los movimientos de la boca con el habla ha sido un desafío muy difícil, dice David Barber, profesor de aprendizaje automático en el University College London que no participa en el trabajo de Synthesia. Esto se debe a que el problema va mucho más allá de los movimientos de la boca; hay que pensar en las cejas, en todos los músculos de la cara, en el encogimiento de hombros y en los numerosos y pequeños movimientos que los humanos utilizamos para expresarnos.

El proceso de captura de movimiento utiliza patrones de referencia para ayudar a alinear el metraje capturado desde múltiples ángulos alrededor del sujeto.

DAVID VINTINER

Synthesia ha trabajado con actores para entrenar a sus modelos desde 2020, y sus dobles constituyen los 225 avatares en stock que están disponibles para que los clientes los animen con sus propios guiones. Pero para entrenar a su última generación de avatares, Synthesia necesitaba más datos; Ha pasado el año pasado trabajando con alrededor de 1.000 actores profesionales en Londres y Nueva York. (Synthesia dice que no vende los datos que recopila, aunque sí publica algunos de ellos para fines de investigación académica.)

Anteriormente, a los actores se les pagaba cada vez que se usaba su avatar, pero ahora la compañía les paga una tarifa por adelantado para entrenar el modelo de IA. Synthesia utiliza sus avatares durante tres años, momento en el que se les pregunta a los actores si quieren renovar sus contratos. Si es así, entran al estudio para crear un nuevo avatar. En caso contrario, la empresa eliminará sus datos. Los clientes empresariales de Synthesia también pueden generar sus propios avatares personalizados enviando a alguien al estudio para que haga gran parte de lo que yo hago.

Heaven32: