El oscuro secreto detrás de esas lindas imágenes de animales generadas por IA

No es ningún secreto que los modelos grandes, como DALL-E 2 e Imagen, entrenados en una gran cantidad de documentos e imágenes tomados de la web, absorben los peores aspectos de esos datos así como los mejores. OpenAI y Google lo reconocen explícitamente.

Desplácese hacia abajo Imagen website

—más allá de la fruta del dragón con un cinturón de kárate y el pequeño cactus con un sombrero y gafas de sol— a la sección sobre el impacto social y obtienes esto: “Aunque se filtró un subconjunto de nuestros datos de entrenamiento para eliminar el ruido y el contenido indeseable, como contenido pornográfico imágenes y lenguaje tóxico, también utilizamos [the] Conjunto de datos LAION-400M que se sabe que contiene una amplia gama de contenido inapropiado, incluidas imágenes pornográficas, insultos racistas y estereotipos sociales dañinos. Imagen se basa en codificadores de texto entrenados en datos a escala web no seleccionados y, por lo tanto, hereda los sesgos sociales y las limitaciones de los grandes modelos de lenguaje. Como tal, existe el riesgo de que Imagen haya codificado estereotipos y representaciones dañinos, lo que guía nuestra decisión de no publicar Imagen para uso público sin más salvaguardas establecidas”.

Es el mismo tipo de reconocimiento que hizo OpenAI cuando reveló GPT-3 en 2019: “los modelos entrenados en Internet tienen sesgos a escala de Internet”. Y como ha señalado Mike Cook, que investiga la creatividad de la IA en la Universidad Queen Mary de Londres, está en las declaraciones de ética que acompañaron al modelo de lenguaje grande PaLM de Google y al DALL-E 2 de OpenAI. En resumen, estas empresas saben que sus modelos son capaces de producir contenido horrible, y no tienen idea de cómo arreglar eso.

Leave a Reply Cancel reply