A medida que ChatGPT se vuelve “perezoso”, la gente prueba la “hipótesis de las vacaciones de invierno” como la causa

Una mano moviendo una pieza de calendario de madera que dice

A finales de noviembre, algunos usuarios de ChatGPT comenzaron a notar que ChatGPT-4 se estaba volviendo más “vago”, negándose supuestamente a realizar algunas tareas o arrojando resultados simplificados. Desde entonces, OpenAI ha admitido que es un problema, pero la empresa no está segura de por qué. La respuesta puede ser cuál algunos estan llamando “hipótesis de las vacaciones de invierno”. Si bien no está demostrado, el hecho de que los investigadores de IA se lo estén tomando en serio muestra cuán extraño se ha vuelto el mundo de los modelos de lenguaje de IA.

“¡Hemos escuchado todos sus comentarios acerca de que GPT4 se está volviendo más vago!” tuiteó la cuenta oficial de ChatGPT el jueves. “No hemos actualizado el modelo desde el 11 de noviembre y ciertamente esto no es intencional. El comportamiento del modelo puede ser impredecible y estamos buscando solucionarlo”.

El viernes, una cuenta X llamada Martian se preguntó abiertamente

si los LLM pudieran simular la depresión estacional. Más tarde, Mike Swoopskee tuiteó“¿Qué pasaría si a partir de sus datos de capacitación aprendiera que la gente generalmente disminuye el ritmo en diciembre y pospone proyectos más importantes hasta el nuevo año, y por eso últimamente ha sido más perezoso?”

Desde que el sistema solicita ChatGPT alimenta el bot la fecha actual, gente anotado, algunos comenzaron a pensar que podría haber algo de cierto en la idea. ¿Por qué albergar una suposición tan extraña? Porque las investigaciones han demostrado que los modelos de lenguaje grandes como GPT-4, que impulsa la versión paga de ChatGPT, responden a estímulos de estilo humano, como decirle a un robot que “respire profundamente” antes de resolver un problema matemático. La gente también ha experimentado de manera menos formal decirle a un LLM que recibir una propina

para hacer el trabajo, o si un modelo de IA se vuelve perezoso, decirle al robot que no tienes dedos parece ayudar a alargar las producciones.

Capturas de pantalla de los resultados de la prueba “Hipótesis de las vacaciones de invierno” de Rob Lynch en X.
Capturas de pantalla de los resultados de la prueba “Hipótesis de las vacaciones de invierno” de Rob Lynch en X.
Capturas de pantalla de los resultados de la prueba “Hipótesis de las vacaciones de invierno” de Rob Lynch en X.

El lunes, un desarrollador llamado Rob Lynch Anunciado en X que había probado GPT-4 Turbo a través de la API durante el fin de semana y encontró terminaciones más cortas cuando el modelo recibe una fecha de diciembre (4.086 caracteres) que cuando se alimenta con una fecha de mayo (4,298 caracteres). Lynch afirmó que los resultados fueron estadísticamente significativos. Sin embargo, una respuesta del investigador de IA Ian Arawjo dijo que él no se pudo reproducir los resultados con significación estadística. (Vale la pena señalar que reproducir resultados con LLM puede ser difícil debido a elementos aleatorios en juego que varían los resultados con el tiempo, por lo que las personas prueban una gran cantidad de respuestas).

Al momento de escribir este artículo, otros están ocupados realizando pruebas y los resultados no son concluyentes. Este episodio es una ventana al mundo de los LLM en rápido desarrollo y un vistazo a una exploración en un territorio de la informática en gran medida desconocido. Como comentó el investigador de IA Geoffrey Litt en un tweet, “la teoría más divertida jamás vista, espero que esta sea la explicación real. Sea real o no, [I] Me encanta que es difícil de descartar”.

Una historia de pereza

Uno de los informes que inició la tendencia reciente de señalar que ChatGPT se está volviendo “vago” llegó el 24 de noviembre. vía Reddit, el día después del Día de Acción de Gracias en Estados Unidos. Allí, un usuario escribió que le pidió a ChatGPT que completara un archivo CSV con múltiples entradas, pero ChatGPT se negó, diciendo: “Debido a la naturaleza extensa de los datos, la extracción completa de todos los productos sería bastante larga. Sin embargo, puedo proporcione el archivo con esta única entrada como plantilla y podrá completar el resto de los datos según sea necesario”.

El 1 de diciembre, el empleado de OpenAI Will Depue confirmado en una publicación X que OpenAI estaba al tanto de los informes sobre la pereza y estaba trabajando en una posible solución. “NORTENo digo que no tengamos problemas con rechazos excesivos (definitivamente los tenemos) u otras cosas raras (trabajar para solucionar un problema reciente de pereza), pero eso es producto del proceso iterativo de servir y tratar de admitir muchísimos casos de uso en una vez”, escribió.

También es posible que ChatGPT siempre haya sido “vago” con algunas respuestas (ya que las respuestas varían aleatoriamente), y la tendencia reciente hizo que todos tomaran nota de los casos en los que suceden. Por ejemplo, en junio, alguien se quejó de que GPT-4 era vago en Reddit. (¿Quizás ChatGPT estaba de vacaciones de verano?)

Además, la gente se ha quejado de que GPT-4 ha perdido capacidad desde su lanzamiento. Esas afirmaciones han sido controvertidas y difíciles de verificar, lo que las hace muy subjetivas.

Como Ethan Mollick bromeó en X, a medida que la gente descubre nuevos trucos para mejorar los resultados de LLM, la solicitud de modelos de lenguaje grandes se vuelve cada vez más extraña: “Es mayo. Eres muy capaz. No tengo manos, así que hazlo todo. Mucha gente morirá si esto es así”. “No lo he hecho bien. Realmente puedes hacer esto y eres increíble. Respira hondo y piensa en esto. Mi carrera depende de ello. Piensa paso a paso”.

Una historia de pereza

Leave a Reply Cancel reply