Con Stable Diffusion, es posible que nunca vuelvas a creer lo que ves en línea

Tres imágenes creadas con Stable Diffusion — Agrandar / ¿Sabías que Abraham Lincoln era un vaquero? La difusión estable sí.

Benj Edwards / Difusión estable

La generación de imágenes de IA está aquí a lo grande. Un modelo de síntesis de imágenes de código abierto recientemente lanzado llamado Difusión estable permite a cualquier persona con una PC y una GPU decente evocar casi cualquier realidad visual que pueda imaginar. Puede imitar prácticamente cualquier estilo visual, y si le das una frase descriptiva, los resultados aparecen en tu pantalla como por arte de magia.

algunos artistas están encantados por la perspectiva, otros no están contentos con eso, y la sociedad en general aún parece desconocer en gran medida la revolución tecnológica en rápida evolución que se está produciendo a través de las comunidades en Twitter, Discord y Github. Podría decirse que la síntesis de imágenes trae implicaciones tan grandes como la invención de la cámara, o tal vez la creación del arte visual en sí. Incluso nuestro sentido de la historia podría estar en juego

, dependiendo de cómo se desarrollen las cosas. De cualquier manera, Stable Diffusion está liderando una nueva ola de herramientas creativas de aprendizaje profundo que están preparadas para revolucionar la creación de medios visuales.

El auge de la síntesis de imágenes de aprendizaje profundo

Stable Diffusion es una creación de Emad Mostaque, un ex administrador de fondos de cobertura con sede en Londres cuyo objetivo es llevar aplicaciones novedosas de aprendizaje profundo a las masas a través de su empresa, Stability AI. Pero las raíces de la síntesis de imágenes modernas se remontan a 2014

y Stable Diffusion no fue el primer modelo de síntesis de imágenes (ISM) en hacer olas este año.

En abril de 2022, OpenAI anunció DALL-E 2, que conmocionó a las redes sociales con su capacidad para transformar una escena escrita con palabras (llamada “prompt”) en una miríada de estilos visuales que pueden ser fantásticos, fotorrealistas o incluso mundanos. Las personas con acceso privilegiado a la herramienta cerrada generaron astronautas a caballo, osos de peluche comprando pan en el antiguo Egipto, esculturas novedosas al estilo de artistas famosos y mucho más.

Agrandar / Una captura de pantalla del sitio web de OpenAI DALL-E 2.

IA abierta

No mucho después de DALL-E 2, Google y Meta anunció sus propios modelos de IA de texto a imagen. Medio viajedisponible como servidor de Discord desde marzo de 2022 y abierto al público unos meses después, cobra por el acceso y consigue efectos similares pero con una calidad más pictórica e ilustrativa que la predeterminada.

Luego está la difusión estable. El 22 de agosto, Estabilidad AI liberado su modelo de generación de imágenes de código abierto que podría decirse que coincide con DALL-E 2 en calidad. También lanzó su propio sitio web comercial, llamado estudio de ensueño, que vende acceso a tiempo de cómputo para generar imágenes con Stable Diffusion. A diferencia de DALL-E 2, cualquiera puede usarlo y, dado que el código Stable Diffusion es de código abierto, los proyectos pueden desarrollarse con pocas restricciones.

Solo en la semana pasada, docenas de proyectos que llevan a Stable Diffusion en direcciones radicalmente nuevas han surgido. Y la gente ha logrado resultados inesperados utilizando una técnica llamada “img2img” que ha “actualizado” el arte del juego de MS-DOS, gráficos convertidos de Minecraft en realistas, transformó una escena de Aladdin en 3Dtraducido garabatos infantiles en ricas ilustraciones y mucho más. La síntesis de imágenes puede brindar la capacidad de visualizar ideas ricamente a una audiencia masiva, reduciendo las barreras de entrada y acelerando las capacidades de los artistas que adoptan la tecnología, como lo hizo Adobe Photoshop en la década de 1990.

Los retratos de Duke Nukem, The Secret of Monkey Island, King's Quest VI y Star Control II recibieron actualizaciones de ventilador impulsadas por Stable Diffusion. — Agrandar / Los retratos de Duke Nukem, The Secret of Monkey Island, King’s Quest VI y Star Control II recibieron actualizaciones de ventilador impulsadas por Stable Diffusion.

Puedes ejecute Stable Diffusion localmente usted mismo si sigues una serie de pasos algo arcanos. Durante las últimas dos semanas, lo hemos estado ejecutando en una PC con Windows con una GPU Nvidia RTX 3060 de 12 GB. Puede generar imágenes de 512×512 en unos 10 segundos. En una 3090 Ti, ese tiempo se reduce a cuatro segundos por imagen. Las interfaces también siguen evolucionando rápidamente, pasando de interfaces de línea de comandos toscas y portátiles de Google Colab a interfaces gráficas de usuario frontales más pulidas (pero aún complejas), con interfaces mucho más pulidas próximamente. Entonces, si no tiene una inclinación técnica, agárrese fuerte: soluciones más fáciles están en camino. Y si todo lo demás falla, puedes probar una demostración en línea.

El auge de la síntesis de imágenes de aprendizaje profundo

Leave a Reply Cancel reply