El generador de inteligencia artificial más nuevo de Google crea video HD a partir de indicaciones de texto

Todavía de

Fotograma de “Un oso de peluche lavando platos”, generado por Google Imagen Video.

Google

Hoy, Google anunció el desarrollo de Imagen Video, un modo de IA de texto a video capaz de producir videos de 1280 × 768 a 24 cuadros por segundo a partir de un mensaje escrito. Actualmente se encuentra en fase de investigación, pero su aparición cinco meses después Google Imagen apunta al rápido desarrollo de los modelos de síntesis de vídeo.

Solo seis meses después del lanzamiento del generador de texto a imagen DALLE-2 de OpenAI, el progreso en el campo de los modelos de difusión de IA se ha acelerado rápidamente. El anuncio de Imagen Video de Google se produce menos de una semana después de que Meta presentara su herramienta de inteligencia artificial de texto a video, Make-A-Video.

Según Google trabajo de investigación, Imagen Video incluye varias habilidades estilísticas notables, como generar videos basados ​​en el trabajo de pintores famosos (las pinturas de Vincent van Gogh, por ejemplo), generar objetos giratorios en 3D mientras se preserva la estructura del objeto y representar texto en una variedad de estilos de animación. . Google tiene la esperanza de que los modelos de síntesis de video de propósito general puedan “disminuir significativamente la dificultad de la generación de contenido de alta calidad”.

La clave de las capacidades de Imagen Video es una “cascada” de siete modelos de difusión que transforman el mensaje de texto inicial (como “un oso lavando los platos”) en un video de baja resolución (16 cuadros, 24 × 48 píxeles, a 3 fps ), luego lo aumenta a resoluciones progresivamente más altas con velocidades de cuadro más altas con cada paso. El vídeo de salida final tiene una duración de 5,3 segundos.

Los ejemplos de video presentados en el sitio web de Imagen Video van desde lo mundano (“Helado derritiéndose goteando por el cono”) hasta lo más fantástico (“Volando a través de una intensa batalla entre barcos piratas en un océano tormentoso”). Contienen artefactos obvios, pero muestran más fluidez y detalle que los modelos anteriores de texto a imagen, como CogVideo que debutó hace cinco meses.

Ejemplos fijos de creaciones de Google Imagen Video, proporcionados por Google.
Agrandar / Ejemplos fijos de creaciones de Google Imagen Video, proporcionados por Google.

Otro modelo de texto a video adyacente a Google también debutó oficialmente hoy. Llamó Fenaki, puede crear videos más largos a partir de indicaciones detalladas. Eso, junto con SueñoFusiónque puede crear modelos 3D a partir de indicaciones de texto, muestra que el desarrollo competitivo en modelos de difusión continúa rápidamente, con la cantidad de artículos de IA en arXiv creciendo exponencialmente a un ritmo que hace que sea difícil para algunos investigadores Mantenga con las últimas novedades.

Los datos de capacitación para Google Imagen Video provienen de los datos disponibles públicamente LAION-400M conjunto de datos de imagen-texto y “14 millones de pares de video-texto y 60 millones de pares de imagen-texto”, según Google. Como resultado, ha sido entrenado en “datos problemáticos” filtrados por Google, pero aún puede contener contenido sexualmente explícito y violento, así como estereotipos sociales y prejuicios culturales. A la firma también le preocupa que su herramienta pueda usarse “para generar contenido falso, odioso, explícito o dañino”.

Como resultado, es poco probable que veamos un lanzamiento público en el corto plazo: “Hemos decidido no lanzar el modelo de Imagen Video o su código fuente hasta que se mitiguen estas preocupaciones”, dice Google.

Leave a Reply

Your email address will not be published. Required fields are marked *