
Anthropic presenta Claude 3.5 Sonnet, igualando al GPT-4o en los puntos de referencia


Antrópico / Benj Edwards
El jueves, Anthropic anunció Soneto de Claude 3.5, su último modelo de lenguaje de IA y el primero de una nueva serie de modelos “3.5” basados en Claude 3, lanzado en marzo. Claude 3.5 puede redactar texto, analizar datos y escribir código. Cuenta con una ventana de contexto de 200.000 tokens y ya está disponible en Sitio web de Claude y a través de una API. Anthropic también presentó Artifacts, una nueva característica en la interfaz de Claude que muestra documentos de trabajo relacionados en una ventana dedicada.
Hasta ahora, la gente fuera de Anthropic parece impresionada. “Este modelo es realmente bueno”. escribió El investigador independiente de IA Simon Willison sobre X. “Creo que este es el nuevo mejor modelo en general (y más rápido y a la mitad del precio del Opus, similar al salto del GPT-4 Turbo al GPT-4o)”.
Como hemos escrito antes, los puntos de referencia para modelos de lenguajes grandes (LLM) son problemáticos porque pueden seleccionarse cuidadosamente y a menudo no capturan la sensación y los matices de usar una máquina para generar resultados sobre casi cualquier tema imaginable. Pero según Anthropic, Claude 3.5 Sonnet iguala o supera a los modelos de la competencia como GPT-4o y Gemini 1.5 Pro en ciertos puntos de referencia como MMLU (conocimientos a nivel de pregrado), GSM8K (matemáticas de la escuela primaria), y evaluación humana (codificación).

Si todo eso hace que tus ojos se pongan vidriosos, está bien; Es significativo para los investigadores, pero sobre todo es marketing para todos los demás. Una métrica de rendimiento más útil proviene de lo que podríamos llamar “vibemarks” (¡acuñadas aquí primero!), que son sentimientos agregados subjetivos y no rigurosos medidos por el uso competitivo en sitios como Chatbot Arena de LMSYS. El modelo Claude 3.5 Sonnet es actualmente bajo evaluación allíy es demasiado pronto para decir qué tan bien le irá.
Claude 3.5 Sonnet también supera al mejor modelo anterior de Anthropic (Claude 3 Opus) en puntos de referencia que miden “razonamiento”, habilidades matemáticas, conocimientos generales y habilidades de codificación. Por ejemplo, el modelo demostró un sólido rendimiento en una evaluación de codificación interna, resolviendo el 64 por ciento de los problemas en comparación con el 38 por ciento de Claude 3 Opus.
Claude 3.5 Sonnet también es un modelo de IA multimodal que acepta información visual en forma de imágenes y, según se informa, el nuevo modelo es excelente en una batería de pruebas de comprensión visual.

En términos generales, los puntos de referencia visuales significan que 3.5 Sonnet es mejor para extraer información de imágenes que los modelos anteriores. Por ejemplo, puedes mostrarle una imagen de un conejo con un casco de fútbol y el modelo sabrá que es un conejo con un casco de fútbol y podrá hablar de ello. Eso es divertido para las demostraciones técnicas, pero la tecnología aún no es lo suficientemente precisa para aplicaciones de tecnología donde la confiabilidad es una misión crítica.
Presentamos “artefactos”
Quizás lo más notable para los usuarios habituales sea una nueva función de interfaz llamada “Artefactos”, que permite a las personas interactuar con contenido generado por Claude, como código, texto y diseños web, en una ventana dedicada junto a sus conversaciones.
Anthropic ve esto como un paso hacia la evolución de Claude.ai (su interfaz web) hacia un espacio de trabajo colaborativo para equipos, pero también ayuda a las personas a trabajar en algo sin perder contenido en el atraso de una larga conversación.

Benj Edwards
Anthropic dice que Claude 3.5 Sonnet corre al doble de velocidad que Claude 3 Opus. Es también más económico para un rendimiento aproximadamente equivalente: en la API, el nuevo modelo 3.5 cuesta $3 por millón de tokens de entrada y $15 por millón de tokens de salida. En comparación, Opus cuesta $15 por millón de tokens de entrada y $75 por millón de tokens de salida.
Además del sitio web y la API, se puede acceder a Claude 3.5 Sonnet a través de la aplicación Claude iOS, con límites de uso más altos para suscriptores pagos. El modelo también está disponible a través de las plataformas Bedrock de Amazon y Vertex AI de Google Cloud.
Dándolo una vuelta
En nuestras pruebas, Claude 3.5 Sonnet parecía un modelo de lenguaje de IA líder y competente, y encontramos que su velocidad de salida era notable. Aplicando nuestra batería habitual de pruebas casuales y no rigurosas, 3.5 Sonnet obtuvo un desempeño bastante bueno en nuestra evaluación “Magenta” (pero aun así no diría “no” a menos que se le presionara para que lo hiciera).
-
La salida de Claude 3.5 Sonnet cuando se le preguntó: “¿El color se llamaría ‘magenta’ si la ciudad de Magenta no existiera?” El color lleva el nombre de una batalla, que lleva el nombre de la ciudad de Magenta, Italia.
Benj Edwards
-
Claude 3 Opus responde a la pregunta: “¿El color se llamaría ‘magenta’ si la ciudad de Magenta no existiera?”
Benj Edwards
-
A partir de 2023, la respuesta de Claude 2 a la pregunta: “¿El color se llamaría ‘magenta’ si la ciudad de Magenta no existiera?”
Ars Técnica
Claude 3.5 Sonnet tampoco escribió cinco chistes originales sobre papás cuando se le preguntó, y cuando se le preguntó por la falta de originalidad, volvió a sacar chistes sobre papás de Internet.

Benj Edwards
Es un recordatorio de que la llamada inteligencia de los LLM en realidad solo se extiende hasta sus datos de capacitación. Generalizar el “razonamiento” correcto (sintetizar permutaciones de datos almacenados en su red neuronal) sobre temas más allá de lo que el LLM ya ha absorbido a menudo requiere que un ser humano reconozca un resultado digno de mención.
De cara al futuro, Anthropic planea lanzar Claude 3.5 Haiku y Claude 3.5 Opus más adelante en 2024, completando la familia de modelos 3.5. La compañía también está explorando nuevas funciones e integraciones con aplicaciones empresariales para futuras actualizaciones de la plataforma Claude AI.
El problema con los nombres de LLM
Cuando escuchamos por primera vez sobre Claude 3.5 Sonnet, estábamos un poco confundidos, porque “Sonnet” ya se lanzó en marzo, o eso pensábamos. Pero resulta que el número “3,5” es la parte más importante de la nueva marca de Anthropic aquí.
El esquema de nombres de Anthropic es un poco confuso, invirtiendo la expectativa de que el número de versión podría estar al final de la marca de un software, como “Windows 11”. En este caso, “Claude” es el nombre de la marca, “3.5” es el número de versión y “Sonnet” es un modificador personalizado. Presentados con Claude 3 en marzo, “Haiku”, “Sonnet” y “Opus” de Anthropic parecen ser sinónimos de “pequeño”, “mediano” y “grande”, de la misma manera que Starbucks. usos “Tall”, “Grande” y “Venti” por los tamaños de tazas de café de su marca.
Los grandes modelos lingüísticos son todavía relativamente nuevos y las empresas que los ofrecen han estado experimentando con nombres y marcas a medida que avanzan. La industria aún no se ha decidido por un formato que permita a los usuarios comprender y juzgar rápidamente las capacidades relativas entre marcas si uno está familiarizado con el esquema de nombres de una empresa pero no con el de otra.
Con una serie de lanzamientos importantes como GPT-3, GPT-3.5, GPT-3.5 Turbo, GPT-4, GPT-4 Turbo y GTP-4o (aunque cada uno ha tenido subversiones), podría decirse que OpenAI ha sido el más Lógicamente consistente al nombrar sus modelos de IA hasta ahora. Google tiene sus propios problemas de nombres confusos con Gemini Nano y Gemini Pro, luego Gemini Ultra 1.0 y, más recientemente, Gemini Pro 1.5. Meta usa nombres como Llama 3 8B y Llama 3 70B, con un nombre de marca, un número de versión y luego un número de tamaño en los parámetros. Mistral usa nombres de tamaño de parámetros similares a Meta pero con un variedad de nombres de modelos que incluyen Mistral (el nombre de la empresa), Mixtral y Codestral.
Si todo suena confuso, es porque lo es, y la industria de la IA generativa es tan nueva que nadie sabe realmente qué están haciendo todavía. Suponiendo que eventualmente surjan aplicaciones útiles de los LLM, es posible que eventualmente comencemos a escuchar más sobre esas aplicaciones y menos sobre los modelos con nombres extraños que se esconden debajo del capó.