La historia interna de cómo se construyó ChatGPT a partir de las personas que lo hicieron

Sandhini Agarwal: Tenemos muchos próximos pasos. Definitivamente creo que lo viral que se ha vuelto ChatGPT ha hecho que muchos problemas que sabíamos que existían realmente surgieran y se volvieran críticos, cosas que queremos resolver lo antes posible. Sabemos que el modelo todavía está muy sesgado. Y sí, ChatGPT es muy bueno para rechazar solicitudes incorrectas, pero también es bastante fácil escribir avisos que hagan que no rechace lo que queríamos que rechazara.

Fe Liam: Ha sido emocionante ver las diversas y creativas aplicaciones de los usuarios, pero siempre nos enfocamos en áreas para mejorar. Creemos que a través de un proceso iterativo en el que implementamos, recibimos comentarios y refinamos, podemos producir la tecnología más alineada y capaz. A medida que nuestra tecnología evoluciona, surgen inevitablemente nuevos problemas.

Sandhini Agarwal: En las semanas posteriores al lanzamiento, analizamos algunos de los ejemplos más terribles que la gente había encontrado, las peores cosas que la gente estaba viendo en la naturaleza. Evaluamos cada uno de ellos y hablamos sobre cómo deberíamos solucionarlo.

Jan Leike: A veces es algo que se ha vuelto viral en Twitter, pero tenemos algunas personas que realmente se comunican en silencio.

Sandhini Agarwal: Muchas de las cosas que encontramos fueron jailbreaks, lo que definitivamente es un problema que debemos solucionar. Pero debido a que los usuarios tienen que probar estos métodos intrincados para que el modelo diga algo malo, no es como si esto fuera algo que nos perdimos por completo, o algo que nos sorprendió mucho. Aún así, eso es algo en lo que estamos trabajando activamente en este momento. Cuando encontramos jailbreaks, los agregamos a nuestros datos de entrenamiento y prueba. Todos los datos que estamos viendo alimentan un modelo futuro.

Jan Leike: Cada vez que tenemos un modelo mejor, queremos sacarlo y probarlo. Somos muy optimistas de que un poco de entrenamiento adversario específico puede mejorar mucho la situación con jailbreak. No está claro si estos problemas desaparecerán por completo, pero creemos que podemos hacer mucho más difícil el jailbreak. Una vez más, no es que no supiéramos que el jailbreak era posible antes del lanzamiento. Creo que es muy difícil anticipar realmente cuáles serán los verdaderos problemas de seguridad con estos sistemas una vez que los haya implementado. Por lo tanto, estamos poniendo mucho énfasis en monitorear para qué usan las personas el sistema, ver qué sucede y luego reaccionar ante eso. Esto no quiere decir que no debamos mitigar proactivamente los problemas de seguridad cuando los anticipamos. Pero sí, es muy difícil prever todo lo que realmente sucederá cuando un sistema llegue al mundo real.

En enero, Microsoft reveló Bing Chat, un chatbot de búsqueda que muchos suponen que es una versión del GPT-4 oficialmente no anunciado de OpenAI. (OpenAI dice: “Bing funciona con uno de nuestros modelos de próxima generación que Microsoft personalizó específicamente para la búsqueda. Incorpora avances de ChatGPT y GPT-3.5”.) El uso de chatbots por parte de gigantes tecnológicos con reputaciones multimillonarias para proteger crea nuevos desafíos para aquellos encargados de construir los modelos subyacentes.

Leave a Reply Cancel reply