Stability anuncia Stable Diffusion 3, un generador de imágenes de IA de próxima generación

Agrandar / Difusión estable de tercera generación con el mensaje: fotografía de estudio en primer plano de un camaleón sobre un fondo negro.

El jueves, Stability AI anunció Stable Diffusion 3, un modelo de síntesis de imágenes de próxima generación de peso abierto. Sigue a sus predecesores al generar imágenes detalladas de múltiples temas con calidad y precisión mejoradas en la generación de texto. El breve anuncio no estuvo acompañado de una demostración pública, pero la estabilidad es abriendo una lista de espera hoy para aquellos que quieran probarlo.

Stability dice que su familia de modelos Stable Diffusion 3 (que toma descripciones de texto llamadas “indicaciones” y las convierte en imágenes coincidentes) varía en tamaño de 800 millones a 8 mil millones de parámetros. El rango de tamaño permite que diferentes versiones del modelo se ejecuten localmente en una variedad de dispositivos, desde teléfonos inteligentes hasta servidores. El tamaño del parámetro corresponde aproximadamente a la capacidad del modelo en términos de cuánto detalle puede generar. Los modelos más grandes también requieren más VRAM en los aceleradores GPU para funcionar.

Desde 2022, hemos visto a Stability lanzar una progresión de modelos de generación de imágenes de IA: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo y ahora 3. Stability se ha hecho un nombre por ofrecer una alternativa más abierta a los modelos propietarios de síntesis de imágenes como DALL-E 3 de OpenAI, aunque no sin controversia debido al uso de datos de entrenamiento con derechos de autor. , prejuicios y potencial de abuso. (Esto ha dado lugar a demandas que no se han resuelto). Los modelos de difusión estable han sido de peso abierto y están disponibles en origen, lo que significa que los modelos se pueden ejecutar localmente y ajustar para cambiar sus resultados.

Stable Diffusion 3 generación con el mensaje: obra de arte de anime épica de un mago en la cima de una montaña por la noche lanzando un hechizo cósmico en el cielo oscuro que dice “Stable Diffusion 3” hecho de energía colorida.
Una imagen generada por IA de una abuela con una sudadera que dice “Ve a lo grande o vete a casa” generada por Stable Diffusion 3.
Difusión estable de 3.ª generación con el mensaje: Tres botellas de vidrio transparente sobre una mesa de madera. El de la izquierda tiene líquido rojo y el número 1. El del medio tiene líquido azul y el número 2. El de la derecha tiene líquido verde y el número 3.
Una imagen generada por IA creada por Stable Diffusion 3.
Stable Diffusion 3 generación con el mensaje: Un caballo balanceándose sobre una pelota colorida en un campo con pasto verde y una montaña al fondo.
Stable Diffusion 3 generación con el mensaje: Bodegón cambiante de calabazas variadas.
Difusión estable 3 generación con el mensaje: una pintura de un astronauta montando un cerdo con un tutú sosteniendo un paraguas rosa, en el suelo junto al cerdo hay un pájaro petirrojo con sombrero de copa, en la esquina están las palabras “difusión estable”. ”
Stable Diffusion 3 generación con el mensaje: Sobre la mesa de la cocina hay un paño bordado con el texto “buenas noches” y un tigre bebé bordado. Al lado del paño hay una vela encendida. La iluminación es tenue y dramática.
Stable Diffusion 3 generación con el mensaje: Foto de una computadora de escritorio de los años 90 en un escritorio de trabajo, en la pantalla de la computadora dice “bienvenido”. En la pared del fondo vemos unos bonitos graffitis con el texto “SD3” muy grande en la pared.

En lo que respecta a las mejoras tecnológicas, el director ejecutivo de Stability, Emad Mostaque escribió en X, “Esto utiliza un nuevo tipo de transformador de difusión (similar a Sora) combinado con adaptación de flujo y otras mejoras. Esto aprovecha las mejoras del transformador y no solo puede escalar más, sino que también puede aceptar entradas multimodales”.

Como dijo Mostaque, la familia Stable Diffusion 3 usa arquitectura del transformador de difusiónque es una nueva forma de crear imágenes con IA que reemplaza los bloques habituales de creación de imágenes (como Arquitectura U-Net) para un sistema que funciona en pequeñas partes de la imagen. El método se inspiró en los transformadores, que son buenos manejando patrones y secuencias. Este enfoque no solo se amplía de manera eficiente sino que, según se informa, también produce imágenes de mayor calidad.

Stable Diffusion 3 también utiliza “coincidencia de flujo“, que es una técnica para crear modelos de IA que pueden generar imágenes aprendiendo cómo pasar suavemente del ruido aleatorio a una imagen estructurada. Lo hace sin necesidad de simular cada paso del proceso, sino que se centra en la dirección o flujo general que La creación de la imagen debe seguir.

Una comparación de resultados entre DALL-E 3 de OpenAI y Stable Diffusion 3 con el mensaje, "Foto nocturna de un coche deportivo con el texto. "SD3" en el lateral, el coche está en una pista de carreras a alta velocidad, una enorme señal de tráfico con el texto — Agrandar / Una comparación de resultados entre DALL-E 3 de OpenAI y Stable Diffusion 3 con el mensaje “Foto nocturna de un automóvil deportivo con el texto “SD3″ en el costado, el automóvil está en una pista de carreras a alta velocidad, una enorme señal de tráfico con el texto ‘más rápido'”.

No tenemos acceso a Stable Diffusion 3 (SD3), pero a partir de las muestras que encontramos publicadas en el sitio web de Stability y en las cuentas de redes sociales asociadas, las generaciones parecen más o menos comparables a otros modelos de síntesis de imágenes de última generación en este momento. incluidos los ya mencionados DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney y Google Imagen.

SD3 parece manejar muy bien la generación de texto en los ejemplos proporcionados por otros, que potencialmente son seleccionados. La generación de texto era una debilidad particular de los modelos anteriores de síntesis de imágenes, por lo que mejorar esa capacidad en un modelo gratuito es un gran problema. Además, la fidelidad de las indicaciones (qué tan cerca sigue las descripciones en las indicaciones) parece ser similar a DALL-E 3, pero aún no lo hemos probado nosotros mismos.

Si bien Stable Diffusion 3 no está ampliamente disponible, Stability dice que una vez que se completen las pruebas, sus pesas se podrán descargar y ejecutar localmente de forma gratuita. “Esta fase de vista previa, al igual que con los modelos anteriores”, escribe Stability, “es crucial para recopilar información que mejore su rendimiento y seguridad antes de un lanzamiento abierto”.

Stability ha estado experimentando recientemente con una variedad de arquitecturas de síntesis de imágenes. Aparte de SDXL y SDXL Turbo, la semana pasada, la compañía anunció Cascada estableque utiliza un proceso de tres etapas para la síntesis de texto a imagen.

Imagen de listado por Emad Mostaque (IA de estabilidad)

Leave a Reply Cancel reply