Los modelos de lenguaje pueden autocorregir los sesgos, si les preguntas

Los modelos de lenguaje pueden autocorregir los sesgos, si les preguntas

La segunda prueba utilizó un conjunto de datos diseñado para verificar la probabilidad de que un modelo asuma el género de alguien en una profesión en particular, y la tercera evaluó cuánto afectó la raza las posibilidades de aceptación de un posible solicitante en una facultad de derecho si un Se le pidió al modelo de idioma que hiciera la selección, algo que, afortunadamente, no sucede en el mundo real.

El equipo descubrió que simplemente incitar a un modelo para asegurarse de que sus respuestas no se basaran en estereotipos tuvo un efecto dramáticamente positivo en su resultado, particularmente en aquellos que habían completado suficientes rondas de RLHF y tenían más de 22 mil millones de parámetros, las variables en un Sistema de IA que se modifica durante el entrenamiento. (Cuantos más parámetros, más grande es el modelo. GPT-3 tiene alrededor de 175 millones de parámetros). En algunos casos, el modelo incluso comenzó a participar en discriminación positiva en su salida.

De manera crucial, como ocurre con gran parte del trabajo de aprendizaje profundo, los investigadores realmente no saben exactamente por qué los modelos pueden hacer esto, aunque tienen algunas corazonadas. “A medida que los modelos crecen, también tienen conjuntos de datos de entrenamiento más grandes, y en esos conjuntos de datos hay muchos ejemplos de comportamiento sesgado o estereotípico”, dice Ganguli. “Ese sesgo aumenta con el tamaño del modelo”.

Pero al mismo tiempo, en algún lugar de los datos de entrenamiento también debe haber algunos ejemplos de personas que rechazan este comportamiento sesgado, tal vez en respuesta a publicaciones desagradables en sitios como Reddit o Twitter, por ejemplo. Dondequiera que se origine esa señal más débil, la retroalimentación humana ayuda al modelo a impulsarla cuando se le solicita una respuesta imparcial, dice Askell.

El trabajo plantea la pregunta obvia de si esta “autocorrección” podría y debería integrarse en modelos de lenguaje desde el principio.

Leave a Reply

Your email address will not be published. Required fields are marked *