Cómo OpenAI está tratando de hacer que ChatGPT sea más seguro y menos sesgado

No se trata solo de asustar a los periodistas (algunos de los cuales realmente deberían saber mejor que antropomorfizar y exagerar la capacidad de un chatbot tonto para tener sentimientos). La puesta en marcha también ha recibido mucho calor de los conservadores en los EE. sesgo de “despertar”.

Toda esta indignación finalmente está teniendo un impacto. El contenido alucinante de Bing es generado por la tecnología de lenguaje AI llamada ChatGPT desarrollada por la startup OpenAI, y el viernes pasado, OpenAI emitió un entrada en el blog destinado a aclarar cómo deben comportarse sus chatbots. También lanzó su pautas

sobre cómo debería responder ChatGPT cuando se le solicite información sobre las “guerras culturales” de EE. UU. Las reglas incluyen no afiliarse a partidos políticos o juzgar a un grupo como bueno o malo, por ejemplo.

Hablé con Sandhini Agarwal y Lama Ahmad, dos investigadoras de políticas de IA en OpenAI, sobre cómo la empresa está haciendo que ChatGPT sea más seguro y menos loco. La empresa se negó a comentar sobre su relación con Microsoft, pero aun así tenían algunas ideas interesantes. Esto es lo que tenían que decir:

Cómo obtener mejores respuestas: En la investigación de modelos de lenguaje de IA, una de las preguntas abiertas más importantes es cómo evitar que los modelos “alucinen”, un término educado para inventar cosas. Millones de personas han utilizado ChatGPT durante meses, pero no hemos visto el tipo de falsedades y alucinaciones que Bing ha estado generando.

Esto se debe a que OpenAI ha utilizado una técnica en ChatGPT llamada aprendizaje de refuerzo a partir de comentarios humanos, que mejora las respuestas del modelo en función de los comentarios de los usuarios. La técnica funciona pidiendo a las personas que elijan entre una variedad de resultados diferentes antes de clasificarlos en términos de varios criterios diferentes, como factualidad y veracidad. Alguno los expertos creen

Microsoft podría haberse saltado o apresurado esta etapa para lanzar Bing, aunque la compañía aún debe confirmar o negar esa afirmación.

Pero ese método no es perfecto., según Agarwal. Es posible que a las personas se les hayan presentado opciones que eran todas falsas y luego hayan elegido la opción menos falsa, dice ella. En un esfuerzo por hacer que ChatGPT sea más confiable, la compañía se ha centrado en limpiar su conjunto de datos y eliminar ejemplos en los que el modelo ha tenido preferencia por cosas que son falsas.

Jailbreak ChatGPT: Desde el lanzamiento de ChatGPT, la gente ha estado tratando de “liberarlo”, lo que significa encontrar soluciones alternativas para hacer que el modelo romper sus propias reglas y generar cosas racistas o conspirativas. Este trabajo no ha pasado desapercibido en OpenAI HQ. Agarwal dice que OpenAI revisó toda su base de datos y seleccionó las indicaciones que generaron contenido no deseado para mejorar el modelo y evitar que se repita en estas generaciones.

OpenAI quiere escuchar: La compañía ha dicho que comenzará a recopilar más comentarios del público para dar forma a sus modelos. OpenAI está explorando el uso de encuestas o la creación de asambleas de ciudadanos para discutir qué contenido debería prohibirse por completo, dice Lama Ahmad. “En el contexto del arte, por ejemplo, la desnudez puede no ser algo que se considere vulgar, pero ¿qué piensas sobre eso en el contexto de ChatGPT en el salón de clases?”, dice.

Leave a Reply Cancel reply