DeepMind de Google genera video a partir de una sola imagen

A principios de esta semana, el equipo detrás de la tecnología avanzada de Google Mente profunda red neuronal dio a conocer una nueva capacidad denominada Transencuadrador, que permite a la IA generar videos de 30 segundos a partir de una sola entrada de imagen. Es un pequeño truco ingenioso a primera vista, pero las implicaciones son mucho más grandes que un archivo .GIF interesante.

Transframer es un marco generativo de propósito general que puede manejar muchas tareas de imagen y video en un entorno probabilístico. El nuevo trabajo muestra que sobresale en la predicción de videos y la síntesis de vistas, y puede generar videos de 30 segundos a partir de una sola imagen: https://t.co/wX3nrrYEEa

1/ pic.twitter.com/gQk6f9nZyg

— DeepMind (@DeepMind) 15 de agosto de 2022

“Transframer es lo último en una variedad de puntos de referencia de generación de video y… puede generar videos coherentes de 30 segundos a partir de una sola imagen sin ninguna información geométrica explícita”, el equipo de investigación de DeepMind explica

. Básicamente, todo lo que Transframer necesita es una foto, que luego analiza e identifica el encuadre de la imagen, es decir, pistas como una mesa, un pasillo o una calle. Después de predecir el entorno de un sujeto utilizando estas “imágenes de contexto”, visualiza (y posteriormente muestra) cómo se vería ese objetivo desde varios ángulos. El equipo de DeepMind ilustra el procedimiento con objetivos como una silla, una computadora portátil, un vaso de agua e incluso un libro de texto GRE.

DeepMind AI de Google puede 'transformar' una sola imagen en un video — ShapeNet (1 vista de contexto, 128×128). *Mente profunda.*

“Dada una colección de imágenes de contexto con anotaciones asociadas (marcas de tiempo, puntos de vista de cámara, etc.) y una anotación de consulta, la tarea es predecir una distribución de probabilidad sobre la imagen de destino”, continúa el equipo. “Este marco admite una variedad de tareas de predicción visual, incluido el modelado de video, la síntesis de vista novedosa y la visión multitarea”.

Como lo señaló futurismo, Transframer podría algún día ofrecer una vía completamente nueva dentro de la industria de los videojuegos al utilizar el aprendizaje automático para crear entornos digitales en lugar de depender de métodos de renderizado que consumen más tiempo. A medida que avanza la tecnología, la capacitación Transframer de DeepMind podría abrir caminos completamente nuevos para el arte, el análisis científico y un mayor desarrollo de la IA. Además, uno usuario de Twitter imaginó aprovechar sus imágenes DALL-E de OpenAI sobre el programa Transframer para crear creaciones de IA apiladas, como si esas imágenes no pudieran volverse más surrealistas.

Leave a Reply Cancel reply