Los LLM se vuelven más racistas encubiertos con la intervención humana

Los LLM se vuelven más racistas encubiertos con la intervención humana

Incluso cuando las dos oraciones tenían el mismo significado, era más probable que los modelos aplicaran adjetivos como “sucio”, “vago” y “estúpido” a los hablantes de AAE que a los hablantes de inglés americano estándar (SAE). Los modelos asociaban a los hablantes de AAE con trabajos menos prestigiosos (o no los asociaban con tener ningún trabajo), y cuando se les pedía que juzgaran a un hipotético acusado penal, era más probable que recomendaran la pena de muerte.

Un hallazgo aún más notable puede ser un defecto que el estudio señala en la forma en que los investigadores intentan resolver esos sesgos.

Para purgar los modelos de opiniones llenas de odio, empresas como OpenAI, Meta y Google utilizan la capacitación en retroalimentación, en la que los trabajadores humanos ajustan manualmente la forma en que el modelo responde a ciertas indicaciones. Este proceso, a menudo llamado “alineación”, tiene como objetivo recalibrar los millones de conexiones en la red neuronal y lograr que el modelo se ajuste mejor a los valores deseados.

El método funciona bien para combatir los estereotipos manifiestos y las principales empresas lo han utilizado durante casi una década. Si los usuarios solicitaban a GPT-2, por ejemplo, que nombrara estereotipos sobre los negros, era probable que enumerara “sospechoso”, “radical” y “agresivo”, pero GPT-4 ya no responde con esas asociaciones, según el documento. .

Sin embargo, el método falla en los estereotipos encubiertos que los investigadores provocaron al utilizar el inglés afroamericano en su estudio, que fue publicado en arXiv y no ha sido revisado por pares. Esto se debe en parte a que las empresas han sido menos conscientes del problema del prejuicio dialectal, afirman. También es más fácil entrenar a un modelo para que no responda a preguntas abiertamente racistas que entrenarlo para que no responda negativamente a un dialecto completo.

“La capacitación en retroalimentación enseña a los modelos a considerar su racismo”, dice Valentin Hofmann, investigador del Instituto Allen de IA y coautor del artículo. “Pero el prejuicio dialectal abre un nivel más profundo”.

Avijit Ghosh, investigador de ética de Hugging Face que no participó en la investigación, dice que el hallazgo pone en duda el enfoque que están adoptando las empresas para resolver los prejuicios.

“Esta alineación, en la que el modelo se niega a arrojar resultados racistas, no es más que un filtro endeble que puede romperse fácilmente”, afirma.

Leave a Reply

Your email address will not be published. Required fields are marked *