OpenAI colapsa la realidad mediática con Sora, un generador de vídeo fotorrealista con IA

Agrandar / Instantáneas de tres videos generados con Sora de OpenAI.

El jueves, OpenAI anunció sora, un modelo de IA de texto a video que puede generar videos HD fotorrealistas de 60 segundos de duración a partir de descripciones escritas. Si bien es solo una vista previa de la investigación que no hemos probado, supuestamente crea video sintético (pero no audio todavía) con una fidelidad y consistencia mayores que cualquier modelo de texto a video disponible en este momento. También está asustando a la gente.

“Fue agradable conocerlos a todos. Por favor, cuéntenles a sus nietos sobre mis videos y hasta dónde llegamos para grabarlos”. escribió La reportera de tecnología del Wall Street Journal, Joanna Stern, habla sobre X.

“Este podría ser el momento de ‘mierda’ de la IA”, escribió Tom Warren de El borde.

“Cada uno de estos vídeos está generado por IA, y si esto no te preocupa al menos un poquito, nada lo hará”. tuiteó Marques Brownlee, periodista tecnológico de YouTube.

Para referencia futura, dado que este tipo de pánico algún día parecerá ridículo, hay una generación de personas que crecieron creyendo que los videos fotorrealistas deben ser creados por cámaras. Cuando se falsificaba un vídeo (por ejemplo, en películas de Hollywood), se necesitaba mucho tiempo, dinero y esfuerzo, y los resultados no eran perfectos. Eso dio a las personas un nivel básico de tranquilidad de que lo que estaban viendo de forma remota probablemente fuera cierto, o al menos representativo de algún tipo de verdad subyacente. Incluso cuando el niño saltó sobre la lava

había al menos un niño y una habitación.

El mensaje que generó el vídeo de arriba: “Un tráiler de la película que presenta las aventuras del hombre espacial de 30 años que lleva un casco de motocicleta tejido de lana roja, cielo azul, desierto salado, estilo cinematográfico, filmado en película de 35 mm, colores vivos.“

La tecnología como Sora elimina ese tipo de marco de referencia mediático. Muy pronto, cada vídeo fotorrealista que veas online podría ser 100 por ciento falso en todos los sentidos. Además, cada vídeo histórico que veas también podría ser falso. Cómo afrontar esto como sociedad y solucionarlo mientras mantenemos la confianza en las comunicaciones remotas está mucho más allá del alcance de este artículo, pero probé suerte en ofreciendo algunas soluciones

allá por 2020, cuando toda la tecnología que estamos viendo ahora parecía una fantasía lejana para la mayoría de la gente.

En ese artículo, llamé al momento en que la verdad y la ficción en los medios se vuelven indistinguibles la “singularidad cultural”. Parece que OpenAI está en camino de hacer que esa predicción se cumpla un poco antes de lo que esperábamos.

Inmediato: Reflejos en la ventanilla de un tren que recorre los suburbios de Tokio.

OpenAI ha descubierto que, al igual que otros modelos de IA que utilizan la arquitectura transformadora, Sora escala con computación disponible. Con computadoras mucho más potentes detrás de escena, la fidelidad del video de IA podría mejorar considerablemente con el tiempo. En otras palabras, este es el “peor” vídeo generado por IA que jamás se verá. Aún no hay sonido sincronizado, pero eso podría solucionarse en modelos futuros.

Cómo (pensamos) lo lograron

La síntesis de vídeo con IA ha progresado a pasos agigantados en los últimos dos años. Cubrimos por primera vez los modelos de texto a video en septiembre de 2022 con Make-A-Video de Meta. Un mes después, Google mostró Imagen Video. Y hace apenas 11 meses, una versión generada por IA de Will Smith comiendo espaguetis se volvió viral. En mayo del año pasado, lo que anteriormente se consideraba el favorito en el espacio de texto a video, Runway Gen-2, ayudó a crear un comercial de cerveza falso lleno de monstruosidades retorcidas, generado en incrementos de dos segundos. En modelos anteriores de generación de vídeo, las personas entraban y salían de la realidad con facilidad, los miembros fluían juntos como pasta y la física no parecía importar.

Sora (que significa “cielo” en japonés) parece ser algo completamente diferente. Tiene alta resolución (1920×1080), puede generar video con consistencia temporal (manteniendo el mismo tema a lo largo del tiempo) que dura hasta 60 segundos y parece seguir indicaciones de texto con gran fidelidad. Entonces, ¿cómo lo logró OpenAI?

OpenAI no suele compartir detalles técnicos internos con la prensa, por lo que nos queda especular basándonos en teorías de expertos e información proporcionada al público.

OpenAI dice que Sora es un modelo de difusión, muy parecido a DALL-E 3 y Stable Diffusion. Genera un vídeo comenzando con ruido y “lo transforma gradualmente eliminando el ruido en muchos pasos”, explica la empresa. “Reconoce” objetos y conceptos enumerados en el mensaje escrito y los saca del ruido, por así decirlo, hasta que emerge una serie coherente de fotogramas de vídeo.

Sora es capaz de generar vídeos todos a la vez a partir de un mensaje de texto, ampliar vídeos existentes o generar vídeos a partir de imágenes fijas. Logra coherencia temporal al darle al modelo “previsión” de muchos fotogramas a la vez, como lo llama OpenAI, resolviendo el problema de garantizar que un sujeto generado siga siendo el mismo incluso si se pierde de vista temporalmente.

OpenAI representa el video como colecciones de grupos más pequeños de datos llamados “parches”, que según la compañía son similares a los tokens (fragmentos de una palabra) en GPT-4. “Al unificar la forma en que representamos los datos, podemos entrenar transformadores de difusión en una gama más amplia de datos visuales de lo que era posible antes, abarcando diferentes duraciones, resoluciones y relaciones de aspecto”, escribe la compañía.

Una herramienta importante en el arsenal de trucos de OpenAI es que su uso de modelos de IA es compuesto. Los modelos anteriores están ayudando a crear otros más complejos. Sora sigue bien las indicaciones porque, al igual que DALL-E 3, utiliza subtítulos sintéticos que describen escenas en los datos de entrenamiento generados por otro modelo de IA como GPT-4V. Y la empresa no se detiene aquí. “Sora sirve como base para modelos que pueden comprender y simular el mundo real”, escribe OpenAI, “una capacidad que creemos será un hito importante para lograr AGI”.

Una pregunta en la mente de muchas personas es qué datos utilizó OpenAI para entrenar a Sora. OpenAI no ha revelado su conjunto de datos, pero según lo que la gente ve en los resultados, es posible que OpenAI esté utilizando datos de vídeo sintéticos generados en un motor de videojuegos además de fuentes de vídeo real (por ejemplo, extraídos de YouTube o con licencia de vídeo de archivo). bibliotecas). El Dr. Jim Fan de Nvidia, especialista en entrenar IA con datos sintéticos, escribió en X: “No me sorprendería que Sora sea entrenado con muchos datos sintéticos usando Unreal Engine 5. ¡Tiene que ser así!”. Sin embargo, hasta que OpenAI lo confirme, eso es sólo especulación.

Cómo (pensamos) lo lograron

Leave a Reply Cancel reply