
Diez meses después del primer adelanto, OpenAI lanza públicamente la generación de videos Sora

Un vídeo musical del colectivo de arte canadiense Vallée Duhamel realizado con vídeo generado por Sora. “[We] simplemente dispara cosas y luego usa a Sora para combinarlas con una visión más interesante y surrealista”.
Durante una transmisión en vivo el lunes, durante el día 3 de los “12 días de OpenAi” de OpenAI, los desarrolladores de Sora mostraron una nueva interfaz “Explorar” que permite a las personas navegar a través de videos generados por otros para obtener ideas. OpenAI dice que cualquiera puede disfrutar viendo el feed “Explorar” de forma gratuita, pero generar vídeos requiere una suscripción.
También mostraron una nueva característica llamada “Storyboard” que permite a los usuarios dirigir un video con múltiples acciones cuadro por cuadro.
Medidas de seguridad y limitaciones.
Además del lanzamiento, OpenAI también publica Tarjeta del sistema de Sora por primera vez. Incluye detalles técnicos sobre cómo funciona el modelo y pruebas de seguridad que la empresa realizó antes de este lanzamiento.
“Mientras que los LLM tienen tokens de texto, Sora tiene parches visuales”, escribe OpenAI, describiendo los nuevos fragmentos de entrenamiento como “una representación efectiva para modelos de datos visuales… En un nivel alto, convertimos videos en parches comprimiendo primero los videos en un espacio latente de dimensiones inferiores y, posteriormente, descomponer la representación en parches de espacio-tiempo”.
Sora también hace uso de una “técnica de recaptioning”, similar a la que se ve en la generación de imágenes DALL-E 3 de la compañía, para “generar subtítulos altamente descriptivos para los datos de entrenamiento visual”. Eso, a su vez, permite a Sora “seguir más fielmente las instrucciones de texto del usuario en el vídeo generado”, escribe OpenAI.
Video generado por Sora proporcionado por OpenAI, desde el mensaje: “Bucle: un cachorro de golden retriever vestido con un traje de superhéroe completo con una máscara y una capa se encuentra en lo alto del edificio Empire State en invierno, con vista a la Nueva York que protege por la noche. la parte trasera del cachorro es visible para la cámara; su atención está dirigida a Nueva York;
OpenAI implementó varias medidas de seguridad en el lanzamiento. La plataforma incorpora metadatos C2PA en todos los videos generados para identificación y verificación de origen. Los vídeos muestran marcas de agua visibles de forma predeterminada y OpenAI desarrolló una herramienta de búsqueda interna para verificar el contenido generado por Sora.
La compañía reconoció limitaciones técnicas en la versión actual. “Esta primera versión de Sora cometerá errores, no es perfecta”, dijo un desarrollador durante el lanzamiento de la transmisión en vivo. Según se informa, el modelo tiene dificultades con simulaciones físicas y acciones complejas durante períodos prolongados.
En el pasado, hemos visto que este tipo de limitaciones se basan en los videos de ejemplo que se usaron para entrenar modelos de IA. Esta generación actual de modelos de síntesis de vídeo de IA tiene dificultades para generar cosas verdaderamente nuevas, ya que la arquitectura subyacente sobresale en transformar conceptos existentes en nuevas presentaciones, pero hasta ahora normalmente falla en la verdadera originalidad. Aún así, es temprano en la generación de videos con IA y la tecnología mejora todo el tiempo.