Las guerras de la IA se intensifican con Claude 3, del que se afirma que tiene habilidades “casi humanas”

Las guerras de la IA se intensifican con Claude 3, del que se afirma que tiene habilidades “casi humanas”
El logotipo antrópico de Claude 3.
Agrandar / El logotipo antrópico de Claude 3.

El lunes, antrópico liberado Claude 3, una familia de tres modelos de lenguaje de IA similares a los que impulsan ChatGPT. Anthropic afirma que los modelos establecen nuevos puntos de referencia de la industria en una variedad de tareas cognitivas, acercándose incluso a la capacidad “casi humana” en algunos casos. Es disponible ahora a través del sitio web de Anthropic, siendo el modelo más poderoso el de solo suscripción. También está disponible a través de API para desarrolladores.

Los tres modelos de Claude 3 representan una complejidad y un número de parámetros cada vez mayores: Claude 3 Haiku, Claude 3 Sonnet y Claude 3 Opus. Soneto impulsa el Claude.ai

chatbot ahora gratis con un inicio de sesión por correo electrónico. Pero como se mencionó anteriormente, Opus sólo está disponible a través de la interfaz de chat web de Anthropic si pagas $20 al mes por “Claude Pro”, un servicio de suscripción ofrecido a través del sitio web de Anthropic. Los tres cuentan con una ventana contextual de 200.000 tokens. (La ventana de contexto es la cantidad de tokens (fragmentos de una palabra) que un modelo de lenguaje de IA puede procesar a la vez).

Cubrimos el lanzamiento de Claude en marzo de 2023 y Claude 2 en julio de ese mismo año. Cada vez, Anthropic se quedó ligeramente por detrás de los mejores modelos de OpenAI en capacidad y los superó en términos de longitud de ventana de contexto. Con Claude 3, Anthropic quizás finalmente haya alcanzado a los modelos lanzados de OpenAI en términos de rendimiento, aunque aún no hay consenso entre los expertos, y la presentación de los puntos de referencia de IA es notoriamente propensa a la selección selectiva.

Un gráfico de  referencia de Claude 3 proporcionado por Anthropic.
Agrandar / Un gráfico de referencia de Claude 3 proporcionado por Anthropic.

Según se informa, Claude 3 demuestra un rendimiento avanzado en diversas tareas cognitivas, incluido el razonamiento, el conocimiento experto, las matemáticas y la fluidez del lenguaje. (A pesar de la falta de consenso sobre si los modelos de lenguaje grandes “saben” o “razonan”, la comunidad de investigación de IA comúnmente usa esos términos). La compañía afirma que el modelo Opus, el más capaz de los tres, exhibe “niveles casi humanos”. de comprensión y fluidez en tareas complejas.”

Ésta es una afirmación bastante embriagadora y merece ser analizada con más cuidado. Probablemente sea cierto que Opus es “casi humano” en algunos puntos de referencia específicos, pero eso no significa que Opus tenga una inteligencia general como la de un humano (considere que las calculadoras de bolsillo son sobrehumanas en matemáticas). Por lo tanto, es una afirmación deliberadamente llamativa que puede diluirse con salvedades.

Según Anthropic, Claude 3 Opus supera a GPT-4 en 10 puntos de referencia de IA, incluidos MMLU (conocimientos a nivel de pregrado), GSM8K (matemáticas de la escuela primaria), evaluación humana (codificación), y el colorido nombre HellaSwag (conocimiento común). Varias de las victorias son muy estrechas, como el 86,8 por ciento para Opus frente al 86,4 por ciento en una prueba de cinco disparos de MMLU, y algunas brechas son grandes, como el 90,7 por ciento en HumanEval sobre el 67,0 por ciento de GPT-4. Pero es difícil decir qué podría significar eso exactamente para usted como cliente.

“Como siempre, los puntos de referencia de LLM deben tratarse con un poco de sospecha”, dice el investigador de IA Simón Willisonquien habló con Ars sobre Claude 3. “El desempeño de un modelo en los puntos de referencia no dice mucho sobre cómo se siente el modelo al usarlo. Pero esto sigue siendo un gran problema: ningún otro modelo ha superado al GPT-4 en una gama de puntos de referencia ampliamente utilizados como este”.

Leave a Reply

Your email address will not be published. Required fields are marked *