Meta presenta una IA que genera video basado en mensajes de texto

Aunque el efecto es bastante tosco, el sistema ofrece un vistazo temprano de lo que viene a continuación para la inteligencia artificial generativa, y es el próximo paso obvio de los sistemas de IA de texto a imagen que han causado gran entusiasmo este año.

El anuncio de Meta de Make-A-Video, que aún no está disponible para el público, probablemente incitará a otros laboratorios de IA a lanzar sus propias versiones. También plantea algunas grandes cuestiones éticas.

Solo en el último mes, el laboratorio de IA OpenAI puso a disposición de todos su último sistema de IA de texto a imagen DALL-E, y la startup de IA Stability.AI lanzó Stable Diffusion, un sistema de texto a imagen de código abierto.

Pero la IA de texto a video presenta algunos desafíos aún mayores. Por un lado, estos modelos necesitan una gran cantidad de potencia informática. Son un impulso computacional aún mayor que los grandes modelos de IA de texto a imagen, que usan millones de imágenes para entrenar, porque armar un solo video corto requiere cientos de imágenes. Eso significa que en realidad solo las grandes empresas de tecnología pueden permitirse construir estos sistemas en el futuro previsible. También son más complicados de entrenar, porque no hay conjuntos de datos a gran escala de videos de alta calidad combinados con texto.

Para solucionar esto, Meta combinó datos de tres conjuntos de datos de imágenes y videos de código abierto para entrenar su modelo. Los conjuntos de datos estándar de imágenes de texto de imágenes fijas etiquetadas ayudaron a la IA a aprender cómo se llaman los objetos y cómo se ven. Y una base de datos de videos lo ayudó a aprender cómo se supone que esos objetos se mueven en el mundo. La combinación de los dos enfoques ayudó a Make-A-Video, que se describe en un artículo no revisado por pares. artículo publicado hoy

genera videos a partir de texto a escala.

Tanmay Gupta, científico investigador de visión por computadora en el Instituto Allen de Inteligencia Artificial, dice que los resultados de Meta son prometedores. Los videos que se comparten muestran que el modelo puede capturar formas 3D a medida que gira la cámara. El modelo también tiene cierta noción de profundidad y comprensión de la iluminación. Gupta dice que algunos detalles y movimientos están hechos decentemente y son convincentes.

Sin embargo, “hay mucho espacio para que la comunidad de investigación mejore, especialmente si estos sistemas se van a utilizar para la edición de video y la creación de contenido profesional”, agrega. En particular, todavía es difícil modelar interacciones complejas entre objetos.

En el video generado por el mensaje “El pincel de un artista pintando en un lienzo”, el pincel se mueve sobre el lienzo, pero los trazos en el lienzo no son realistas. “Me encantaría ver que estos modelos tuvieran éxito en generar una secuencia de interacciones, como ‘El hombre coge un libro del estante, se pone las gafas y se sienta a leerlo mientras bebe una taza de café'”, Gupta dice.

Leave a Reply Cancel reply