Meta anuncia Make-A-Video, que genera video a partir de texto

Agrandar / Imagen fija de un video generado por IA de un oso de peluche pintando un retrato.

Hoy, Meta anunció Hacer un vídeo, un generador de video impulsado por IA que puede crear contenido de video novedoso a partir de indicaciones de texto o imágenes, similar a las herramientas de síntesis de imágenes existentes como DALL-E y Stable Diffusion. También puede hacer variaciones de videos existentes, aunque aún no está disponible para uso público.

En la página de anuncios de Make-A-Video, Meta muestra videos de ejemplo generados a partir de texto, que incluyen “una pareja joven caminando bajo una fuerte lluvia” y “un oso de peluche pintando un retrato”. También muestra la capacidad de Make-A-Video para tomar una imagen fuente estática y animarla. Por ejemplo, una foto fija de una tortuga marina, una vez procesada a través del modelo de IA, puede parecer que está nadando.

La tecnología clave detrás de Make-A-Video y por qué ha llegado antes de lo previsto algunos expertos

anticipado, es que se basa en el trabajo existente con la síntesis de texto a imagen utilizada con generadores de imágenes como DALL-E de OpenAI. En julio, Meta anunció su propio modelo de IA de texto a imagen llamado Armar un escándalo.

En lugar de entrenar el modelo Make-A-Video con datos de video etiquetados (por ejemplo, descripciones con subtítulos de las acciones representadas), Meta tomó datos de síntesis de imágenes (imágenes fijas entrenadas con subtítulos) y aplicó datos de entrenamiento de video sin etiquetar para que el modelo aprenda un sentido de dónde podría existir un mensaje de texto o imagen en el tiempo y el espacio. Luego, puede predecir lo que viene después de la imagen y mostrar la escena en movimiento durante un período breve.

Un video de un oso de peluche pintando un retrato, creado con el modelo Make-A-Video AI de Meta (convertido a GIF para mostrar aquí).
Un video de “una pareja joven caminando bajo una fuerte lluvia” creado con Make-A-Video.
Video de una tortuga marina, animado a partir de una imagen fija con Make-A-Video.

“Usando transformaciones que conservan funciones, ampliamos las capas espaciales en la etapa de inicialización del modelo para incluir información temporal”, escribió Meta en un papel blanco. “La red espacial-temporal extendida incluye nuevos módulos de atención que aprenden la dinámica del mundo temporal a partir de una colección de videos”.

Meta no ha hecho ningún anuncio sobre cómo o cuándo Make-A-Video podría estar disponible para el público o quién tendría acceso a él. Meta ofrece una formulario de registro las personas pueden completar si están interesadas en probarlo en el futuro.

Meta reconoce que la capacidad de crear videos fotorrealistas a pedido presenta ciertos riesgos sociales. En la parte inferior de la página del anuncio, Meta dice que todo el contenido de video generado por IA de Make-A-Video contiene una marca de agua para “ayudar a garantizar que los espectadores sepan que el video se generó con IA y no es un video capturado”.

Si la historia sirve de guía, pueden seguir modelos competitivos de texto a video de código abierto (algunos, como CogVideoya existen), lo que podría hacer que la protección de marca de agua de Meta sea irrelevante.

Leave a Reply Cancel reply