
El último generador de vídeo con IA de Runway da vida a monstruos gigantes de algodón de azúcar


El domingo, Runway anunció un nuevo modelo de síntesis de video de IA llamado Alfa Gen-3 todavía está en desarrollo, pero parece crear videos de calidad similar a Sora de OpenAI, que debutó a principios de este año (y aún no se ha lanzado). Puede generar videos novedosos de alta definición a partir de indicaciones de texto que van desde humanos realistas hasta monstruos surrealistas que pisotean el campo.
A diferencia de la pista mejor modelo anterior A partir de junio de 2023, que solo podía crear clips de dos segundos de duración, Gen-3 Alpha supuestamente puede crear segmentos de video de 10 segundos de personas, lugares y cosas que tienen una consistencia y coherencia que supera fácilmente a Gen-2. Si 10 segundos suena corto en comparación con el minuto completo de video de Sora, considere que la compañía está trabajando con un presupuesto de computación reducido en comparación con OpenAI, que cuenta con una financiación más generosa, y en realidad tiene un historial de envío de capacidad de generación de video a usuarios comerciales.
Gen-3 Alpha no genera audio para acompañar los videoclips, y es muy probable que las generaciones temporalmente coherentes (aquellas que mantienen un personaje consistente a lo largo del tiempo) dependan de material de formación similar de alta calidad. Pero la mejora de Runway en fidelidad visual durante el año pasado es difícil de ignorar.
El vídeo con IA se calienta
Han sido un par de semanas muy ocupadas para la síntesis de vídeo de IA en la comunidad de investigación de IA, incluido el lanzamiento del modelo chino. kling, creado por Kuaishou Technology, con sede en Beijing (a veces llamado “Kwai”). Kling puede generar dos minutos de vídeo HD de 1080p a 30 fotogramas por segundo con un nivel de detalle y coherencia que supuestamente coincide con Sora.
Mensaje Gen-3 Alpha: “Reflejos sutiles de una mujer en la ventana de un tren que se mueve a hipervelocidad en una ciudad japonesa”.
Poco después del debut de Kling, la gente en las redes sociales comenzó a crear vídeos surrealistas de IA usando Luma AI Máquina de sueños Luma. Estos videos eran novedosos y extraños pero en general carecía de coherencia; Probamos Dream Machine y nada de lo que vimos nos impresionó.
Mientras tanto, uno de los pioneros originales de la conversión de texto a video, Runway, con sede en la ciudad de Nueva York, fundada en 2018, recientemente se encontró en el blanco de memes que mostraban que su tecnología Gen-2 estaba cayendo en desgracia en comparación con los modelos de síntesis de video más nuevos. Eso puede haber estimulado el anuncio de Gen-3 Alpha.
Mensaje de Gen-3 Alpha: “Un astronauta corriendo por un callejón en Río de Janeiro”.
Generar humanos realistas siempre ha sido complicado para los modelos de síntesis de video, por lo que Runway muestra específicamente la capacidad de Gen-3 Alpha para crear lo que sus desarrolladores llaman personajes humanos “expresivos” con una variedad de acciones, gestos y emociones. Sin embargo, la empresa ejemplos proporcionados No eran particularmente expresivos (en su mayoría personas simplemente miraban y parpadeaban lentamente), pero parecían realistas.
Los ejemplos humanos proporcionados incluyen videos generados de una mujer en un tren, un astronauta corriendo por una calle, un hombre con el rostro iluminado por el brillo de un televisor, una mujer conduciendo un automóvil y una mujer corriendo, entre otros.
Mensaje de Gen-3 Alpha: “Un primer plano de una mujer joven conduciendo un automóvil, mirando un bosque verde borroso y pensativo visible a través de la ventanilla lluviosa del automóvil”.
Los videos de demostración generados también incluyen ejemplos de síntesis de video más surrealistas, incluida una criatura gigante caminando en una ciudad en ruinas, un hombre hecho de rocas caminando en un bosque y el monstruo gigante de algodón de azúcar que se ve a continuación, que es probablemente el mejor video de todo. página.
Mensaje de Gen-3 Alpha: “Un humanoide gigante, hecho de algodón de azúcar azul esponjoso, pisoteando el suelo y rugiendo hacia el cielo, con un cielo azul claro detrás de ellos”.
Gen-3 impulsará varias herramientas de edición de Runway AI (una de las famas más notables de la compañía), que incluyen Cepillo de movimiento múltiple, Controles avanzados de cámaray Modo Director. Puede crear videos a partir de mensajes de texto o imágenes.
Runway dice que Gen-3 Alpha es el primero de una serie de modelos entrenados en una nueva infraestructura diseñada para entrenamiento multimodal a gran escala, dando un paso hacia el desarrollo de lo que llama “Modelos mundiales generales,” que son sistemas hipotéticos de IA que construyen representaciones internas de entornos y las utilizan para simular eventos futuros dentro de esos entornos.