El nuevo lanzamiento de Stable Diffusion 3 sobresale en el horror corporal generado por IA

El nuevo lanzamiento de Stable Diffusion 3 sobresale en el horror corporal generado por IA
Una imagen generada por IA creada con Stable Diffusion 3 de una niña tumbada en el césped.
Agrandar / Una imagen generada por IA creada con Stable Diffusion 3 de una niña tumbada en el césped.

El miércoles, Stability AI publicó pesos para Difusión estable 3 media, un modelo de síntesis de imágenes de IA que convierte mensajes de texto en imágenes generadas por IA. Sin embargo, su llegada ha sido ridiculizada en línea porque genera imágenes de humanos de una manera que parece un paso atrás con respecto a otros modelos de síntesis de imágenes de última generación como Midjourney o DALL-E 3. Como resultado, puede producir con facilidad abominaciones visuales anatómicamente incorrectas.

Un hilo en Reddit, titulado “¿Se supone que este lanzamiento es una broma? [SD3-2B],“detalla los espectaculares fracasos de SD3 Medium a la hora de representar humanos, especialmente extremidades humanas como manos y pies. Otro hilo, titulado “¿Por qué SD3 es tan malo generando chicas tiradas en el césped?” muestra problemas similares, pero para cuerpos humanos completos.

Las manos han sido tradicionalmente un desafío para los generadores de imágenes de IA debido a la falta de buenos ejemplos en los primeros conjuntos de datos de entrenamiento, pero más recientemente, varios modelos de síntesis de imágenes parecían haber superado el problema. En ese sentido, SD3 parece ser un gran paso atrás para los entusiastas de la síntesis de imágenes que se reúnen en Reddit, especialmente en comparación con lanzamientos recientes de Estabilidad como SD XL Turbo en noviembre.

“No hace mucho que StableDiffusion competía con Midjourney, ahora parece una broma en comparación. ¡Al menos nuestros conjuntos de datos son seguros y éticos!” escribió un usuario de Reddit.

Los fanáticos de las imágenes de IA hasta ahora culpan de las fallas anatómicas de Stable Diffusion 3 a la insistencia de Stability en filtrar el contenido para adultos (a menudo llamado contenido “NSFW”) de los datos de entrenamiento del SD3 que le enseñan al modelo cómo generar imágenes. “Lo creas o no, censurar fuertemente a un modelo también elimina la anatomía humana, así que… eso es lo que pasó”. escribió un usuario de Reddit en el hilo.

Básicamente, cada vez que un usuario se dirige a un concepto que no está bien representado en el conjunto de datos de entrenamiento del modelo de IA, el modelo de síntesis de imágenes confabulará su mejor interpretación de lo que el usuario está pidiendo. Y a veces eso puede resultar completamente aterrador.

El lanzamiento de Difusión estable 2.0 en 2022 sufrió problemas similares al representar bien a los humanos, y los investigadores de inteligencia artificial pronto descubrieron que censurar contenido para adultos que contenga desnudos podría obstaculizar gravemente la capacidad de un modelo de IA para generar una anatomía humana precisa. En ese momento, Stability AI cambió de rumbo con SD 2.1 y SD XL, recuperando algunas habilidades perdidas al filtrar fuertemente el contenido NSFW.

Otro problema que puede ocurrir durante el entrenamiento previo del modelo es que a veces el filtro NSFW que usan los investigadores para eliminar imágenes de adultos del conjunto de datos es demasiado exigente, eliminando accidentalmente imágenes que podrían no ser ofensivas y privando al modelo de representaciones de humanos en ciertas situaciones. “[SD3] funciona bien siempre y cuando no haya humanos en la imagen, creo que su filtro nsfw mejorado para filtrar datos de entrenamiento decidió que cualquier humanoide es nsfw”. escribió un Redditor sobre el tema.

Usando un demostración gratuita en línea de SD3 en Hugging Face, ejecutamos indicaciones y vimos resultados similares a los informados por otros. Por ejemplo, el mensaje “un hombre mostrando sus manos” devolvió la imagen de un hombre sosteniendo dos manos gigantes hacia atrás, aunque cada mano tenía al menos cinco dedos.

Los problemas de estabilidad son profundos

Stability anunció Stable Diffusion 3 en febrero y la compañía planea tenerlo disponible en varios tamaños de modelo. El lanzamiento de hoy es para la versión “Mediana”, que es un modelo de 2 mil millones de parámetros. Además de los pesos disponible en Hugging Facetambién están disponibles para experimentación a través de la empresa Plataforma de estabilidad. Los pesos están disponibles para descargar y utilizar de forma gratuita bajo un licencia no comercial solo.

Poco después de su anuncio en febrero, los retrasos en el lanzamiento de los pesos del modelo SD3 inspiraron rumores de que el lanzamiento se estaba retrasando debido a problemas técnicos o mala gestión. Estabilidad La IA como empresa cayó en picada recientemente con la resignación de su fundador y director ejecutivo, Emad Mostaque, en marzo y luego una serie de despidos. Justo antes de eso, tres ingenieros clave (Robin Rombach, Andreas Blattmann y Dominik Lorenz)Deja la compañia. Y sus problemas se remontan aún más atrás, con la noticia de la difícil situación financiera de la empresa. constante desde 2023.

Para algunos fanáticos de Stable Diffusion, las fallas con Stable Diffusion 3 Medium son una manifestación visual de la mala gestión de la empresa y una señal obvia de que las cosas se están desmoronando. Aunque la empresa no se ha declarado en quiebra, algunos usuarios hizo chistes oscuros sobre la posibilidad después de ver SD3 Medium:

“Supongo que ahora pueden ir a la quiebra de una manera segura y ética. [sic] manera, después de todo.”