Por qué no puedes usar Imogen de Google

Este artículo apareció originalmente en Fotografía Popular.

El corgi agudo vive en una casa hecha de sushi. Una fruta del dragón con un cinturón de karate en la nieve. Un cerebro montado en un cohete que se dirige hacia la luna. Estas son solo algunas de las imágenes generadas por IA producidas por el modelo de difusión de texto a imagen de Imagen de Google, y los resultados son increíblemente precisos, a veces con humor. Investigadores de Google dieron a conocer recientemente estos resultados en un artículo publicado el mes pasado, y discutió las repercusiones morales que conlleva el uso de esta última tecnología.

Imagen de Google supera a la competencia

En su trabajo de investigación, los científicos informáticos de Google confirmaron que los modelos de lenguaje grande preentrenados existentes funcionan bastante bien en la creación de imágenes a partir de la entrada de texto. Con Imagensimplemente aumentaron el tamaño del modelo de lenguaje y descubrieron que conducía a resultados más precisos.

Por qué todavía no puedes usar Imagen, el impresionante generador de texto a imagen de Google — La puntuación FID de Imagen se ubicó muy por encima de otros sintetizadores de texto a imagen. *Investigación de Google, equipo cerebral*

Para medir los resultados, Imagen empleó el conjunto de datos Common Objects in Context (COCO), que es un compendio de código abierto de conjuntos de datos visuales sobre el que empresas e investigadores puedan entrenar sus algoritmos de IA en reconocimiento de imágenes. Los modelos reciben una puntuación de Frechet Inception Distance (FID), que calcula su precisión al representar una imagen en función de las indicaciones del conjunto de datos. Una puntuación más baja indica que hay más similitudes entre las imágenes reales y las generadas, siendo una puntuación perfecta de 0,0. El modelo de difusión Imagen de Google puede crear imágenes de muestra de 1024 por 1024 píxeles con una puntuación FID de 7,27.

Según el trabajo de investigación, Imagen encabeza las listas con su puntaje FID en comparación con otros modelos, incluidos DALL-E 2

, VQ-GAN + CLIPy modelos de difusión latente. Los resultados indicaron que los evaluadores humanos también preferían Imagen.

“Para el fotorrealismo, Imagen logra una tasa de preferencia del 39,2%, lo que indica una generación de alta calidad de imagen”, Informe de los informáticos de Google. “En el plató sin gente, hay un aumento en la tasa de preferencia de Imagen al 43,6 %, lo que indica la capacidad limitada de Imagen para generar personas fotorrealistas. En cuanto a la similitud de los subtítulos, la puntuación de Imagen está a la par con las imágenes de referencia originales, lo que sugiere la capacidad de Imagen para generar imágenes que se alinean bien con los subtítulos de COCO”.

Además del conjunto de datos COCO, el equipo de Google también creó el suyo propio, al que llamaron DrawBench. El punto de referencia consta de escenarios rigurosos que probaron la capacidad de diferentes modelos para sintetizar imágenes en función de “composicionalidad, cardinalidad, relaciones espaciales, texto de formato largo, palabras raras e indicaciones desafiantes”, yendo más allá de las indicaciones COCO más limitadas.

Implicaciones morales de Imagen y otro software de texto a imagen de IA

Hay una razón por la que todas las imágenes de muestra no tienen personas. En su conclusión, el equipo de Imagen analiza las posibles repercusiones morales y el impacto social de la tecnología, que no siempre es lo mejor. El programa ya exhibe un sesgo y un punto de vista occidental. Si bien se reconoce que existe un potencial para la creatividad infinita, lamentablemente también hay quienes podrían intentar usar el software para causar daño. Es por esta razón, entre otras, que Imagen no está disponible para uso público, pero eso podría cambiar.

“Por otro lado, los métodos generativos pueden aprovecharse con fines maliciosos, incluido el acoso y la difusión de información errónea, y generan muchas preocupaciones sobre la exclusión y el sesgo social y cultural”, escriben los investigadores. “Estas consideraciones informan nuestra decisión de no lanzar el código o una demostración pública. En trabajos futuros, exploraremos un marco para la externalización responsable que equilibre el valor de la auditoría externa con los riesgos del acceso abierto sin restricciones”.

Además, los investigadores notaron que debido a los conjuntos de datos disponibles en los que se entrena Imagen, el programa presenta sesgos. “Las auditorías de conjuntos de datos han revelado que estos conjuntos de datos tienden a reflejar estereotipos sociales, puntos de vista opresivos y asociaciones despectivas o dañinas con grupos de identidad marginados”.

Si bien la tecnología es ciertamente divertida (¿quién no querría crear una imagen de un pulpo alienígena flotando a través de un portal mientras lee un periódico?), está claro que requiere más trabajo e investigación antes de que Imagen (y otros programas) puedan ser utilizados. entregado responsablemente al público. Algunos, como Dall-E 2, tienen salvaguardias desplegadas, pero la eficacia está por verse. Imagen reconoce la gigantesca, aunque necesaria, tarea de mitigar a fondo las consecuencias negativas.

“Si bien no abordamos directamente estos desafíos en este trabajo, la conciencia de las limitaciones de nuestros datos de capacitación guía nuestra decisión de no lanzar Imagen para uso público”, finalizan. “Advertimos encarecidamente contra el uso de métodos de generación de texto a imagen para cualquier herramienta orientada al usuario sin un cuidado y atención cuidadosos al contenido del conjunto de datos de entrenamiento”.

Imagen de Google supera a la competencia

Implicaciones morales de Imagen y otro software de texto a imagen de IA

Leave a Reply Cancel reply