La nueva aplicación AI Vasa de MicrosoHeaven32 hace que las fotos hablen y canten

microsoHeaven32 publicado Esta semana, un artículo de investigación publicó un nuevo modelo de IA llamado VASA-1 que puede convertir una sola imagen y un clip de audio de una persona en un video realista de sincronización de labios: expresiones faciales, movimientos de cabeza y todo.

El modelo de IA se entrenó con imágenes generadas por IA a partir de generadores como DALL·E-3, que luego los investigadores superpusieron con clips de audio. El resultado son imágenes que se convierten en vídeos con caras parlantes.

Los investigadores se basaron en tecnologías de competidores como: pista Y NVIDIAPero Condición en el periódico. que su enfoque es de mayor calidad y más realista y “supera significativamente” a los métodos existentes.

Relacionado: Firefly Image Generator de Adobe fue parcialmente entrenado en imágenes de IA por Midjourney

Los investigadores dijeron que el modelo puede grabar audio de cualquier duración y generar una cara parlante según el clip.

La única imagen no generada por IA con la que experimentaron los investigadores fue la Mona Lisa. Crearon la imagen icónica. Sincronización labial a Anne Hathaway “Paparazzi“, que comienza con las líneas: “Oye, soy paparazzi, no juego a No Yahtzee”.
^{Una captura de pantalla de la mitad del vídeo. Crédito de la foto: Emprendedor.}

La Mona Lisa fue un ejemplo de una entrada fotográfica en la que el modelo de IA no estaba entrenado, pero que aún podía manipularse. El modelo también podría convertir fotografías artísticas, grabar audio vocal y procesar voz en idiomas distintos del inglés.

Los investigadores enfatizaron que el modelo podría funcionar en tiempo real con un video de demostración que mostraba al modelo animando instantáneamente imágenes con movimientos de la cabeza y expresiones faciales.

Los deepfakes, o medios alterados digitalmente de una persona que podrían difundir información errónea o hacerse pasar por alguien sin permiso, plantean un riesgo planteado por la IA avanzada que puede crear medios digitales con relativamente pocos puntos de referencia.

Relacionado: Tennessee aprueba una ley para proteger a los músicos de los deepfakes de IA

MicrosoHeaven32 abordó estas preocupaciones ampliamente en el documento, y los investigadores afirmaron: “Nos oponemos a cualquier comportamiento que resulte en la creación de contenido engañoso o dañino de personas reales y estamos interesados en utilizar nuestra tecnología para avanzar aún más en la detección de falsificaciones”.

Los investigadores dijeron que su técnica también tiene aplicaciones potencialmente positivas, como mejorar la accesibilidad y mejorar los esfuerzos educativos.

Google demostró un proyecto de investigación similar El mes pasado introdujo una IA capaz de tomar una foto y crear un vídeo a partir de ella, que luego el usuario puede controlar con su voz. La IA podría agregar movimientos de cabeza, parpadeos y gestos con las manos.

Leave a Reply Cancel reply