Este astronauta a caballo es un hito en la capacidad de la IA para dar sentido al mundo

Este astronauta a caballo es un hito en la capacidad de la IA para dar sentido al mundo

Para apoyar el periodismo de ., considere convertirse en un suscriptor.

Los modelos de difusión se entrenan en imágenes que han sido completamente distorsionadas con píxeles aleatorios. Aprenden a convertir estas imágenes a su forma original. En DALL-E 2, no hay imágenes existentes. Entonces, el modelo de difusión toma los píxeles aleatorios y, guiado por CLIP, los convierte en una imagen completamente nueva, creada desde cero, que coincide con el mensaje de texto.

El modelo de difusión permite que DALL-E 2 produzca imágenes de mayor resolución más rápidamente que DALL-E. “Eso lo hace mucho más práctico y agradable de usar”, dice Aditya Ramesh de OpenAI.

En la demostración, Ramesh y sus colegas me mostraron imágenes de un erizo usando una calculadora, un corgi y un panda jugando al ajedrez y un gato disfrazado de Napoleón sosteniendo un trozo de queso. Observo el extraño elenco de sujetos. “Es fácil gastar todo un día de trabajo pensando en indicaciones”, dice.

“Una nutria marina al estilo de La joven de la perla de Johannes Vermeer” / “Un ibis en libertad, pintado al estilo de John Audubon”

DALL-E 2 todavía falla. Por ejemplo, puede tener problemas con un mensaje que le pide que combine dos o más objetos con dos o más atributos, como “un cubo rojo encima de un cubo azul”. OpenAI cree que esto se debe a que CLIP no siempre conecta correctamente los atributos a los objetos.

Además de generar indicaciones de texto, DALL-E 2 también puede generar variaciones de imágenes existentes. Ramesh conecta una foto que tomó de un arte callejero afuera de su apartamento. La IA inmediatamente comienza a generar versiones alternativas de la escena con diferentes obras de arte en la pared. Cada una de estas nuevas imágenes se puede utilizar para iniciar su propia secuencia de variaciones. “Este circuito de retroalimentación podría ser realmente útil para diseñadores y artistas”, dice Ramesh.

Cuidado con el usuario

DALL-E 2 se parece mucho más a un producto pulido que la versión anterior. Ese no era el objetivo, dice Ramesh. Pero OpenAI planea lanzar DALL-E 2 al público después de un lanzamiento inicial a un pequeño grupo de usuarios confiables, como lo hizo con GPT-3.

GPT-3 puede producir texto tóxico. Pero OpenAI dice que ha utilizado los comentarios que recibió de los usuarios de GPT-3 para entrenar una versión más segura, llamada InstructGPT. La compañía espera seguir un camino similar con DALL-E 2, que también se verá moldeado por los comentarios de los usuarios. OpenAI alentará a los usuarios iniciales a romper la IA, engañándola para que genere imágenes ofensivas o dañinas. A medida que resuelve estos problemas, OpenAI comenzará a hacer que DALL-E 2 esté disponible para un grupo más amplio de personas.

OpenAI también está lanzando una política de usuario para DALL-E, que prohíbe pedirle a la IA que genere imágenes ofensivas, sin violencia ni pornografía, y sin imágenes políticas. Para evitar falsificaciones profundas, los usuarios no podrán solicitar a DALL-E que genere imágenes de personas reales.

Además de la política de usuarios, OpenAI ha eliminado ciertos tipos de imágenes de los datos de entrenamiento de DALL-E 2, incluidas aquellas que muestran violencia gráfica. OpenAI también dice que eventualmente pagará a moderadores humanos para que revisen cada imagen generada en su plataforma.

“Nuestro objetivo principal aquí es simplemente obtener una gran cantidad de comentarios sobre el sistema antes de comenzar a compartirlo más ampliamente”, dice Prafulla Dhariwal en OpenAI. “Espero que eventualmente esté disponible, para que los desarrolladores puedan crear aplicaciones sobre él”.

inteligencia creativa

Las IA con múltiples habilidades que pueden ver el mundo y trabajar con conceptos en múltiples modalidades, como el lenguaje y la visión, son un paso hacia una inteligencia de propósito más general. DALL-E 2 es uno de los mejores ejemplos hasta ahora.

Pero aunque Etzioni está impresionado con las imágenes que produce DALL-E 2, se muestra cauteloso acerca de lo que esto significa para el progreso general de la IA. “Este tipo de mejora no nos acerca más a AGI”, dice. “Ya sabemos que la IA es notablemente capaz de resolver tareas limitadas utilizando el aprendizaje profundo. Pero siguen siendo los humanos quienes formulan estas tareas y dan órdenes de marcha al aprendizaje profundo”.

Para Mark Riedl, investigador de IA en Georgia Tech en Atlanta, la creatividad es una buena manera de medir la inteligencia. A diferencia de la prueba de Turing, que requiere que una máquina engañe a un humano a través de una conversación, la prueba Lovelace 2.0 de Riedl juzga la inteligencia de una máquina de acuerdo con qué tan bien responde a las solicitudes para crear algo, como “Una imagen de un pingüino en un traje espacial en Marte. ”

DALL-E obtiene buenos resultados en esta prueba. Pero la inteligencia es una escala móvil. A medida que construimos máquinas cada vez mejores, nuestras pruebas de inteligencia deben adaptarse. Muchos chatbots ahora son muy buenos para imitar la conversación humana, pasando la prueba de Turing en un sentido estricto. Sin embargo, siguen sin pensar.

Leave a Reply

Your email address will not be published. Required fields are marked *