Stability anuncia Stable Diffusion 3, un generador de imágenes de IA de próxima generación

Stability anuncia Stable Diffusion 3, un generador de imágenes de IA de próxima generación
Difusión estable de tercera generación con el mensaje: fotografía de estudio en primer plano de un camaleón sobre un fondo negro.
Agrandar / Difusión estable de tercera generación con el mensaje: fotografía de estudio en primer plano de un camaleón sobre un fondo negro.

El jueves, Stability AI anunció Stable Diffusion 3, un modelo de síntesis de imágenes de próxima generación de peso abierto. Sigue a sus predecesores al generar imágenes detalladas de múltiples temas con calidad y precisión mejoradas en la generación de texto. El breve anuncio no estuvo acompañado de una demostración pública, pero la estabilidad es abriendo una lista de espera hoy para aquellos que quieran probarlo.

Stability dice que su familia de modelos Stable Diffusion 3 (que toma descripciones de texto llamadas “indicaciones” y las convierte en imágenes coincidentes) varía en tamaño de 800 millones a 8 mil millones de parámetros. El rango de tamaño permite que diferentes versiones del modelo se ejecuten localmente en una variedad de dispositivos, desde teléfonos inteligentes hasta servidores. El tamaño del parámetro corresponde aproximadamente a la capacidad del modelo en términos de cuánto detalle puede generar. Los modelos más grandes también requieren más VRAM en los aceleradores GPU para funcionar.

Desde 2022, hemos visto a Stability lanzar una progresión de modelos de generación de imágenes de IA: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo y ahora 3. Stability se ha hecho un nombre por ofrecer una alternativa más abierta a los modelos propietarios de síntesis de imágenes como DALL-E 3 de OpenAI, aunque no sin controversia debido al uso de datos de entrenamiento con derechos de autor. , prejuicios y potencial de abuso. (Esto ha dado lugar a demandas que no se han resuelto). Los modelos de difusión estable han sido de peso abierto y están disponibles en origen, lo que significa que los modelos se pueden ejecutar localmente y ajustar para cambiar sus resultados.

En lo que respecta a las mejoras tecnológicas, el director ejecutivo de Stability, Emad Mostaque escribió en X, “Esto utiliza un nuevo tipo de transformador de difusión (similar a Sora) combinado con adaptación de flujo y otras mejoras. Esto aprovecha las mejoras del transformador y no solo puede escalar más, sino que también puede aceptar entradas multimodales”.

Como dijo Mostaque, la familia Stable Diffusion 3 usa arquitectura del transformador de difusiónque es una nueva forma de crear imágenes con IA que reemplaza los bloques habituales de creación de imágenes (como Arquitectura U-Net) para un sistema que funciona en pequeñas partes de la imagen. El método se inspiró en los transformadores, que son buenos manejando patrones y secuencias. Este enfoque no solo se amplía de manera eficiente sino que, según se informa, también produce imágenes de mayor calidad.

Stable Diffusion 3 también utiliza “coincidencia de flujo“, que es una técnica para crear modelos de IA que pueden generar imágenes aprendiendo cómo pasar suavemente del ruido aleatorio a una imagen estructurada. Lo hace sin necesidad de simular cada paso del proceso, sino que se centra en la dirección o flujo general que La creación de la imagen debe seguir.

Una comparación de resultados entre DALL-E 3 de OpenAI y Stable Diffusion 3 con el mensaje, "Foto nocturna de un coche deportivo con el texto. "SD3" en el lateral, el coche está en una pista de carreras a alta velocidad, una enorme señal de tráfico con el texto
Agrandar / Una comparación de resultados entre DALL-E 3 de OpenAI y Stable Diffusion 3 con el mensaje “Foto nocturna de un automóvil deportivo con el texto “SD3″ en el costado, el automóvil está en una pista de carreras a alta velocidad, una enorme señal de tráfico con el texto ‘más rápido'”.

No tenemos acceso a Stable Diffusion 3 (SD3), pero a partir de las muestras que encontramos publicadas en el sitio web de Stability y en las cuentas de redes sociales asociadas, las generaciones parecen más o menos comparables a otros modelos de síntesis de imágenes de última generación en este momento. incluidos los ya mencionados DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney y Google Imagen.

SD3 parece manejar muy bien la generación de texto en los ejemplos proporcionados por otros, que potencialmente son seleccionados. La generación de texto era una debilidad particular de los modelos anteriores de síntesis de imágenes, por lo que mejorar esa capacidad en un modelo gratuito es un gran problema. Además, la fidelidad de las indicaciones (qué tan cerca sigue las descripciones en las indicaciones) parece ser similar a DALL-E 3, pero aún no lo hemos probado nosotros mismos.

Si bien Stable Diffusion 3 no está ampliamente disponible, Stability dice que una vez que se completen las pruebas, sus pesas se podrán descargar y ejecutar localmente de forma gratuita. “Esta fase de vista previa, al igual que con los modelos anteriores”, escribe Stability, “es crucial para recopilar información que mejore su rendimiento y seguridad antes de un lanzamiento abierto”.

Stability ha estado experimentando recientemente con una variedad de arquitecturas de síntesis de imágenes. Aparte de SDXL y SDXL Turbo, la semana pasada, la compañía anunció Cascada estableque utiliza un proceso de tres etapas para la síntesis de texto a imagen.

Imagen de listado por Emad Mostaque (IA de estabilidad)

Leave a Reply

Your email address will not be published. Required fields are marked *