Un estudio afirma que ChatGPT está perdiendo capacidad, pero algunos expertos no están convencidos

Un robot de juguete inestable sobre un fondo multicolor. — Benj Edwards/Getty Images

El martes, investigadores de la Universidad de Stanford y la Universidad de California, Berkeley, publicaron un trabajo de investigación que pretende mostrar cambios en los resultados de GPT-4 a lo largo del tiempo. El documento alimenta la creencia común pero no probada de que el modelo de lenguaje de IA ha empeorado en las tareas de codificación y composición en los últimos meses. Algunos expertos no están convencidos de los resultados, pero dicen que la falta de certeza apunta a un problema mayor con la forma en que OpenAI maneja los lanzamientos de sus modelos.

En un estudio titulado “¿Cómo cambia el comportamiento de ChatGPT con el tiempo?” publicado en arXiv, Lingjiao Chen, Matei Zaharia y James Zou, arrojan dudas sobre el rendimiento constante de los modelos de lenguaje grande (LLM) de OpenAI, específicamente GPT-3.5 y GPT-4. Usando acceso a la API, probaron las versiones de marzo y junio de 2023 de estos modelos en tareas como resolución de problemas matemáticos, respuesta a preguntas delicadas, generación de código y razonamiento visual. En particular, la capacidad de GPT-4 para identificar números primos se desplomó drásticamente de una precisión del 97,6 por ciento en marzo a solo el 2,4 por ciento en junio. Curiosamente, GPT-3.5 mostró un rendimiento mejorado en el mismo período.

Rendimiento de las versiones de marzo de 2023 y junio de 2023 de GPT-4 y GPT-3.5 en cuatro tareas, tomadas de — Agrandar / Rendimiento de las versiones de marzo de 2023 y junio de 2023 de GPT-4 y GPT-3.5 en cuatro tareas, tomado de “¿Cómo cambia el comportamiento de ChatGPT con el tiempo?”

Chen/Zaharia/Zou

Este estudio llega inmediatamente después de que las personas con frecuencia quejumbroso que GPT-4 ha disminuido subjetivamente su rendimiento en los últimos meses. Las teorías populares sobre por qué incluyen modelos de “destilación” de OpenAI para reducir su sobrecarga computacional en una búsqueda para acelerar la salida y ahorrar recursos de GPU, ajuste fino (capacitación adicional) para reducir salidas dañinas que pueden tener efectos no deseados y un puñado de no compatibles teorías de conspiración como OpenAI que reducen las capacidades de codificación de GPT-4 para que más personas paguen por GitHub Copilot.

Mientras tanto, OpenAI ha negado constantemente cualquier afirmación de que GPT-4 haya disminuido su capacidad. Recientemente, el jueves pasado, el vicepresidente de producto de OpenAI, Peter Welinder tuiteó, “No, no hemos hecho que GPT-4 sea más tonto. Todo lo contrario: hacemos que cada nueva versión sea más inteligente que la anterior. Hipótesis actual: cuando lo usa con más frecuencia, comienza a notar problemas que no veía antes”.

Si bien este nuevo estudio puede parecer una prueba irrefutable para probar las corazonadas de los críticos de GPT-4, otros dicen que no tan rápido. Profesor de informática de Princeton Arvind Narayanan piensa que sus hallazgos no prueban de manera concluyente una disminución en el rendimiento de GPT-4 y son potencialmente consistentes con los ajustes de ajuste realizados por OpenAI. Por ejemplo, en términos de medir las capacidades de generación de código, criticó el estudio por evaluar la inmediatez de la capacidad de ejecución del código en lugar de su corrección.

“El cambio que informan es que el GPT-4 más nuevo agrega texto sin código a su salida. No evalúan la corrección del código (extraño)”, dijo. tuiteó. “Simplemente verifican si el código es ejecutable directamente. Por lo tanto, el intento del modelo más nuevo de ser más útil contó en su contra”.

Leave a Reply Cancel reply