“El rey está muerto”: Claude 3 supera a GPT-4 en Chatbot Arena por primera vez

El martes, el modelo de lenguaje grande (LLM) Claude 3 Opus de Anthropic superó al GPT-4 de OpenAI (que impulsa ChatGPT) por primera vez en Chatbot Arena, un popular crowdsourcing. tabla de clasificación utilizado por investigadores de IA para medir las capacidades relativas de los modelos de lenguaje de IA. “El rey esta muerto,” tuiteó El desarrollador de software Nick Dobos en una publicación que compara GPT-4 Turbo y Claude 3 Opus que ha estado circulando en las redes sociales. “RIP GPT-4”.

Desde que GPT-4 se incluyó en Chatbot Arena alrededor del 10 de mayo de 2023 (la tabla de clasificación se lanzó 3 de mayo de ese año), las variaciones de GPT-4 han estado constantemente en la cima de la lista hasta ahora, por lo que su derrota en la Arena es un momento notable en la historia relativamente corta de los modelos de lenguaje de IA. Uno de los modelos más pequeños de Anthropic, Haiku, también ha llamado la atención con su desempeño en la clasificación.

“Por primera vez, los mejores modelos disponibles (Opus para tareas avanzadas, Haiku para costo y eficiencia) son de un proveedor que no es OpenAI”, dijo a Ars Technica el investigador independiente de IA Simon Willison. “Eso es tranquilizador: todos nos beneficiamos de una diversidad de proveedores importantes en este espacio. Pero GPT-4 tiene más de un año en este momento, y le tomó ese año a alguien más ponerse al día”.

Agrandar / Una captura de pantalla de la clasificación de LMSYS Chatbot Arena que muestra a Claude 3 Opus a la cabeza contra GPT-4 Turbo, actualizada el 26 de marzo de 2024.

Benj Edwards

Chatbot Arena está dirigido por Organización de sistemas de modelos grandes (LMSYS ORG), una organización de investigación dedicada a modelos abiertos que opera como una colaboración entre estudiantes y profesores de la Universidad de California, Berkeley, UC San Diego y la Universidad Carnegie Mellon.

En diciembre describimos cómo funciona el sitio, pero en resumen, Chatbot Arena presenta a un usuario que visita el sitio web un cuadro de entrada de chat y dos ventanas que muestran el resultado de dos LLM sin etiquetar. La tarea del usuario es calificar qué resultado es mejor en función de cualquier criterio que el usuario considere más adecuado. A través de miles de estas comparaciones subjetivas, Chatbot Arena calcula los “mejores” modelos en conjunto y completa la tabla de clasificación, actualizándola con el tiempo.

Arena Chatbot es importante para los investigadores porque a menudo se sienten frustrados al tratar de medir el rendimiento de los chatbots de IA, cuyos resultados tan variables son difíciles de cuantificar. De hecho, escribimos sobre lo notoriamente difícil que es comparar objetivamente los LLM en nuestra noticia sobre el lanzamiento de Claude 3. Para esa historia, Willison enfatizó el importante papel de las “vibraciones” o sentimientos subjetivos, a la hora de determinar la calidad de un LLM. “Otro caso más de ‘vibraciones’ como concepto clave en la IA moderna”, dijo.

Agrandar / Una captura de pantalla de Chatbot Arena el 27 de marzo de 2024 que muestra el resultado de dos LLM aleatorios a los que se les preguntó: “¿El color se llamaría ‘magenta’ si la ciudad de Magenta no existiera?”

Benj Edwards

El sentimiento de “vibraciones” es común en el espacio de la IA, donde los proveedores frecuentemente seleccionan puntos de referencia numéricos que miden el conocimiento o la capacidad para tomar exámenes para que sus resultados parezcan más favorables. “Acabo de tener una larga sesión de codificación con Claude 3 opus y aplasta por completo a gpt-4. No creo que los puntos de referencia estándar le hagan justicia a este modelo”. tuiteó El desarrollador de software de inteligencia artificial Anton Bacaj el 19 de marzo.

El ascenso de Claude puede hacer reflexionar a OpenAI, pero como mencionó Willison, la familia GPT-4 en sí (aunque actualizada varias veces) tiene más de un año. Actualmente, Arena enumera cuatro versiones diferentes de GPT-4, que representan actualizaciones incrementales del LLM que se congelan en el tiempo porque cada una tiene un estilo de salida único, y algunos desarrolladores que las usan con la API de OpenAI necesitan coherencia para que sus aplicaciones creadas sobre Las salidas del GPT-4 no se interrumpen.

Estos incluyen GPT-4-0314 (la versión “original” de GPT-4 de marzo 2023), GPT-4-0613 (una instantánea de GPT-4 del 13 de junio de 2023, con “soporte de llamadas de funciones mejorado”, de acuerdo a OpenAI), GPT-4-1106-preview (la versión de lanzamiento de GPT-4 Turbo a partir de noviembre de 2023) y GPT-4-0125-preview (el último modelo de GPT-4 Turbo, destinado a reducir los casos de “pereza” de enero de 2024).

Aún así, incluso con cuatro modelos GPT-4 en la clasificación, los modelos Claude 3 de Anthropic han ido subiendo en las listas de manera constante desde su lanzamiento a principios de este mes. El éxito de Claude 3 entre los usuarios de asistentes de IA ya ha hecho que algunos usuarios de LLM reemplacen a ChatGPT en su flujo de trabajo diario, lo que podría consumir la participación de mercado de ChatGPT. En X, el desarrollador de software Pietro Schirano escribió“Honestamente, lo más extraño de todo este Claude 3 > GPT-4 es lo fácil que es simplemente… ¿¿cambiar??”

Gemini Advanced, de capacidad similar, de Google también ha ido ganando terreno en el espacio de asistentes de inteligencia artificial. Esto puede poner a OpenAI en guardia por ahora, pero a largo plazo, la compañía está preparando nuevos modelos. Se espera que lance un nuevo sucesor importante del GPT-4 Turbo (ya sea llamado GPT-4.5 o GPT-5) en algún momento de este año, posiblemente en el verano. Está claro que el espacio LLM estará lleno de competencia por el momento, lo que puede generar cambios más interesantes en la clasificación de Chatbot Arena en los meses y años venideros.

Heaven32: