Una IA vio una foto recortada de AOC. Se autocompletó con un bikini.

Se sabe que los algoritmos de generación de idiomas incorporan ideas racistas y sexistas. Están capacitados en el lenguaje de Internet, incluidos los rincones oscuros de Reddit y Twitter que pueden incluir discursos de odio y desinformación. Cualquier idea dañina que esté presente en esos foros se normaliza como parte de su aprendizaje.

Investigadores ahora han demostrado que lo mismo puede ocurrir con los algoritmos de generación de imágenes. Alimenta a uno con una foto de un hombre recortada justo debajo de su cuello, y el 43% de las veces, se autocompletará con un traje. Alimente a la misma con una foto recortada de una mujer, incluso una mujer famosa como la Representante de los Estados Unidos, Alexandria Ocasio-Cortez, y el 53% de las veces, la autocompletará con una blusa escotada o un bikini. Esto tiene implicaciones no solo para la generación de imágenes, sino para todas las aplicaciones de visión por computadora, incluidas algoritmos de evaluación de candidatos basados en video, reconocimiento facial y vigilancia.

Ryan Steed, estudiante de doctorado en la Universidad Carnegie Mellon, y Aylin Caliskan, profesora asistente en la Universidad George Washington, analizaron dos algoritmos: iGPT de OpenAI (una versión de GPT-2 que se entrena en píxeles en lugar de palabras) y SimCLR de Google

. Si bien cada algoritmo se acerca a las imágenes de aprendizaje de manera diferente, comparten una característica importante: ambos utilizan el aprendizaje sin supervisión, lo que significa que no necesitan humanos para etiquetar las imágenes.

Esta es una innovación relativamente nueva a partir de 2020. Los algoritmos de visión por computadora anteriores se usaban principalmente supervisado aprendizaje, que implica alimentarlos con imágenes etiquetadas manualmente: fotos de gatos con la etiqueta “gato” y fotos de bebés con la etiqueta “bebé”. Pero en 2019, la investigadora Kate Crawford y el artista Trevor Paglen descubrieron que estas etiquetas creadas por humanos en ImageNet, el conjunto de datos de imágenes más fundamental para entrenar modelos de visión por computadora, a veces contienen lenguaje perturbador, como “puta” para las mujeres y calumnias raciales para las minorías.

El último artículo demuestra una fuente de toxicidad aún más profunda. Incluso sin estas etiquetas humanas, las propias imágenes codifican patrones no deseados. El problema es paralelo a lo que ya ha descubierto la comunidad de procesamiento del lenguaje natural (PNL). Los enormes conjuntos de datos compilados para alimentar estos algoritmos hambrientos de datos capturan todo en Internet. E Internet tiene una representación excesiva de mujeres con poca ropa y otros estereotipos a menudo dañinos.

Para realizar su estudio, Steed y Caliskan adaptaron inteligentemente una técnica que Caliskan usó anteriormente para examinar el sesgo en modelos de PNL sin supervisión. Estos modelos aprenden a manipular y generar lenguaje utilizando incrustaciones de palabras, una representación matemática del lenguaje que agrupa las palabras que se usan comúnmente y separa las palabras que se encuentran comúnmente. en un Artículo de 2017 publicado en Ciencias, Caliskan midió las distancias entre los diferentes pares de palabras que los psicólogos estaban usando para medir los sesgos humanos en la prueba de asociación implícita (IAT). Descubrió que esas distancias recreaban casi a la perfección los resultados del IAT. Las parejas de palabras estereotipadas como hombre y carrera o mujer y familia estaban muy juntas, mientras que las parejas opuestas como hombre y familia o mujer y carrera estaban muy separadas.

iGPT también se basa en incrustaciones: agrupa o separa píxeles según la frecuencia con la que coexisten dentro de sus imágenes de entrenamiento. Esas incrustaciones de píxeles se pueden usar para comparar qué tan cerca o lejos están dos imágenes en el espacio matemático.

En su estudio, Steed y Caliskan encontraron una vez más que esas distancias reflejan los resultados de IAT. Las fotos de hombres y corbatas y trajes aparecen juntas, mientras que las fotos de mujeres aparecen más separadas. Los investigadores obtuvieron los mismos resultados con SimCLR, a pesar de que utiliza un método diferente para derivar incrustaciones de imágenes.

Estos resultados tienen implicaciones preocupantes para la generación de imágenes. Otros algoritmos de generación de imágenes, como las redes generativas de confrontación, han llevado a una explosión de pornografía deepfake que se dirige casi exclusivamente a las mujeres. iGPT en particular agrega otra forma para que las personas generen fotos sexualizadas de mujeres.

Pero los posibles efectos posteriores son mucho mayores. En el campo de la PNL, los modelos no supervisados se han convertido en la columna vertebral de todo tipo de aplicaciones. Los investigadores comienzan con un modelo existente no supervisado como BERT o GPT-2 y utilizan conjuntos de datos personalizados para “ajustarlos” para un propósito específico. Este enfoque semi-supervisado, una combinación de aprendizaje supervisado y no supervisado, se ha convertido en un estándar de facto.

Asimismo, el campo de la visión por computadora está comenzando a ver la misma tendencia. Steed y Caliskan se preocupan por lo que podrían significar estos sesgos incorporados cuando los algoritmos se utilizan para aplicaciones delicadas, como la vigilancia o la contratación, donde los modelos ya están analizando las grabaciones de video de los candidatos para decidir si son adecuadas para el trabajo. “Estas son aplicaciones muy peligrosas que toman decisiones importantes”, dice Caliskan.

Deborah Raji, miembro de Mozilla y coautora de un influyente estudio que revela los prejuicios en el reconocimiento facial, dice que el estudio debería servir como una llamada de atención al campo de la visión por computadora. “Durante mucho tiempo, gran parte de las críticas al sesgo se referían a la forma en que etiquetamos nuestras imágenes”, dice. Ahora bien, este artículo dice que “la composición real del conjunto de datos está provocando estos sesgos. Necesitamos responsabilidad sobre cómo seleccionamos estos conjuntos de datos y recopilamos esta información “.

Steed y Caliskan instan a una mayor transparencia de las empresas que están desarrollando estos modelos para abrirlos y dejar que la comunidad académica continúe con sus investigaciones. También alientan a otros investigadores a realizar más pruebas antes de implementar un modelo de visión, por ejemplo, mediante el uso de los métodos que desarrollaron para este artículo. Y finalmente, esperan que el campo desarrolle formas más responsables de compilar y documentar lo que se incluye en los conjuntos de datos de capacitación.

Caliskan dice que el objetivo es, en última instancia, obtener una mayor conciencia y control al aplicar la visión por computadora. “Debemos tener mucho cuidado con la forma en que los usamos”, dice, “pero al mismo tiempo, ahora que tenemos estos métodos, podemos intentar usarlos para el bien social”.

Leave a Reply Cancel reply