Ha llegado el primer modelo de IA de clase GPT-4 que cualquiera puede descargar: Llama 405B

Ha llegado el primer modelo de IA de clase GPT-4 que cualquiera puede descargar: Llama 405B
Una llama roja en un desierto azul, ilustración basada en una fotografía.

En el mundo de la IA, hay un gran revuelo en torno a un nuevo modelo de lenguaje de IA publicado el martes por Meta: Llama 3.1 405B¿El motivo? Es, potencialmente, la primera vez que alguien puede descargar un modelo de lenguaje grande (LLM) de clase GPT-4 de forma gratuita y ejecutarlo en su propio hardware. Aún así, necesitará un hardware potente: Meta dice que puede ejecutarse en un “nodo de servidor único”, que no es un equipo de nivel PC de escritorio. Pero es un disparo provocador a la proa de los proveedores de modelos de IA “cerrados” como OpenAI y Anthropic.

“Llama 3.1 405B es el primer modelo disponible abiertamente que rivaliza con los mejores modelos de IA en lo que respecta a capacidades de vanguardia en conocimiento general, capacidad de dirección, matemáticas, uso de herramientas y traducción multilingüe”. dice Meta. El director ejecutivo de la empresa, Mark Zuckerberg, llama a 405B “el primer modelo de inteligencia artificial de código abierto de niv el de frontera”.

En la industria de la IA, el término “modelo de frontera” se refiere a un sistema de IA diseñado para ampliar los límites de las capacidades actuales. En este caso, Meta está posicionando a 405B entre los mejores modelos de IA de la industria, como GPT-4o de OpenAI, 3.5 Sonnet de Claude y Google Gemini 1.5 Pro.

Un gráfico publicado por Meta sugiere que 405B se acerca mucho a igualar el rendimiento de GPT-4 Turbo, GPT-4o y Claude 3.5 Sonnet en puntos de referencia como Universidad de Michigan (conocimientos de nivel universitario), GSM8K (matemáticas de escuela primaria), y Evaluación humana (codificación).

Pero como hemos señalado muchas veces desde marzo, estos puntos de referencia no son necesariamente… sonido cientificamente y no transmiten la experiencia subjetiva de interactuar con modelos de lenguaje de IA. De hecho, esta lista tradicional de puntos de referencia de IA es tan inútil para los profanos que incluso el departamento de relaciones públicas de Meta simplemente publicó algunas imágenes de gráficos numéricos sin intentar explicar su significado en detalle.

Un gráfico proporcionado por Meta que muestra los resultados comparativos de Llama  3.1 405B en comparación con otros modelos de IA importantes.
Agrandar / Un gráfico proporcionado por Meta que muestra los resultados comparativos de Llama 3.1 405B en comparación con otros modelos de IA importantes.

En cambio, hemos descubierto que medir la experiencia subjetiva de usar un modelo de IA conversacional (a través de lo que podría llamarse “vibemarking”) en tablas de clasificación A/B como Chatbot Arena es una mejor manera de evaluar a los nuevos LLM. En ausencia de datos de Chatbot Arena, Meta ha proporcionado los resultados de sus propias evaluaciones humanas de los resultados de 405B que parecen mostrar que el nuevo modelo de Meta se mantiene firme frente a GPT-4 Turbo y Claude 3.5 Sonnet.

Un gráfico proporcionado por Meta que muestra cómo los humanos calificaron los resultados de Llama 3.1 405B en comparación con GPT-4 Turbo, GPT-4o y Claude 3.5 Sonnet en sus propios estudios.
Agrandar / Un gráfico proporcionado por Meta que muestra cómo los humanos calificaron los resultados de Llama 3.1 405B en comparación con GPT-4 Turbo, GPT-4o y Claude 3.5 Sonnet en sus propios estudios.

Cualquiera que sean los puntos de referencia, las primeras palabras que se escucharon en la calle (después del modelo) filtrado en 4chan El hecho de que ayer se haya confirmado que el modelo 405B es aproximadamente equivalente a GPT-4 parece coincidir con la afirmación de que el modelo 405B es aproximadamente equivalente a GPT-4. Para llegar a ese punto se necesitó mucho tiempo y un costoso entrenamiento informático, y dinero, del cual el gigante de las redes sociales tiene mucho para gastar. Meta entrenó el modelo 405B con más de 15 billones de tokens de datos de entrenamiento. raspado de la web (luego analizado, filtrado y anotado por Llama 2), utilizando más de 16 000 GPU H100.

¿Y a qué se debe el nombre 405B? En este caso, “405B” significa 405 mil millones de parámetros, y los parámetros son valores numéricos que almacenan información entrenada en una red neuronal. Más parámetros se traducen en una red neuronal más grande que alimenta el modelo de IA, lo que generalmente (pero no siempre) significa más capacidad, como una mejor capacidad para hacer conexiones contextuales entre conceptos. Pero los modelos con parámetros más grandes tienen la desventaja de necesitar más potencia de procesamiento (también conocida como “computación”) para ejecutarse.

Hemos estado esperando el lanzamiento de un modelo de más de 400 mil millones de parámetros de la familia Llama 3 desde que Meta dio la noticia de que estaba entrenando uno en abril, y el anuncio de hoy no se trata sólo del miembro más grande de la familia Llama 3: hay una iteración completamente nueva de modelos Llama mejorados con la designación “Llama 3.1”. Eso incluye versiones mejoradas de sus modelos más pequeños 8B y 70B, que ahora cuentan con soporte multilingüe y una longitud de contexto extendida de 128.000 tokens (la “longitud de contexto” es aproximadamente la capacidad de memoria de trabajo del modelo, y los “tokens” son fragmentos de datos utilizados por los LLM para procesar información).

Meta dice que 405B es útil para resúmenes de texto de formato largo, agentes conversacionales multilingües y asistentes de codificación y para creando sintético Datos utilizados para entrenar futuros modelos de lenguaje de IA. Cabe destacar que ese último caso de uso (permitir a los desarrolladores utilizar los resultados de los modelos de Llama para mejorar otros modelos de IA) ahora cuenta con el respaldo oficial de la licencia Llama 3.1 de Meta por primera vez.

Abuso del término “código abierto”

Llama 3.1 405B es un modelo de ponderaciones abiertas, lo que significa que cualquiera puede descargar los archivos de la red neuronal entrenada y ejecutarlos o ajustarlos. Esto desafía directamente un modelo de negocios en el que empresas como OpenAI se reservan las ponderaciones y, en cambio, monetizan el modelo a través de paquetes de suscripción como ChatGPT o cobran por el acceso por token a través de una API.

Luchar contra el modelo de IA “cerrado” es un gran desafío para Mark Zuckerberg, quien simultáneamente lanzó un Manifiesto de 2.300 palabras Hoy, en un artículo titulado “La IA de código abierto es el camino a seguir”, explica por qué la empresa cree en la publicación abierta de modelos de IA. En un minuto, hablaremos más sobre la terminología. Sin embargo, brevemente, escribe sobre la necesidad de modelos de IA personalizables que ofrezcan control al usuario y fomenten una mejor seguridad de los datos, una mayor rentabilidad y una mejor preparación para el futuro, en lugar de soluciones limitadas por el proveedor.

Todo esto suena razonable, pero desbaratar a la competencia utilizando un modelo subvencionado por los fondos de las redes sociales es también una forma eficiente de jugar a ser un saboteador en un mercado en el que no siempre se puede ganar con la tecnología más avanzada. Las versiones abiertas de modelos de IA benefician a Meta, dice Zuckerberg, porque no quiere quedar atrapado en un sistema en el que empresas como la suya tienen que pagar un peaje para acceder a las capacidades de IA, lo que hace comparaciones con los “impuestos” que Apple impone a los desarrolladores a través de su App Store.

Una captura de pantalla del ensayo de Mark Zuckerberg, "La IA de código abierto es el camino a seguir" publicado el 23 de julio de 2024.
Agrandar / Una captura de pantalla del ensayo de Mark Zuckerberg, “La IA de código abierto es el camino a seguir”, publicado el 23 de julio de 2024.

Entonces, sobre ese término “código abierto”. Como escribimos por primera vez en una actualización de nuestro artículo de lanzamiento de Llama 2 hace un año, “código abierto” tiene un significado muy particular que ha Tradicionalmente se ha definido por la Iniciativa de Código Abierto. La industria de la IA aún no ha decidido qué terminología utilizar para las versiones de modelos de IA que incluyen código o pesos con restricciones (como Llama 3.1) o que no incluyen datos de entrenamiento. En cambio, hemos estado llamando a estas versiones “pesos abiertos”.

Desafortunadamente para los fanáticos de la terminología, Zuckerberg ha incorporado la etiqueta errónea de “código abierto” en el título de su ensayo antes mencionado, potencialmente histórico, sobre los lanzamientos abiertos de IA, por lo que luchar por el término correcto en IA puede ser una batalla perdida. Aun así, su uso molesta a personas como el investigador independiente de IA Simon Willison, a quien le gusta el ensayo de Zuckerberg por lo demás.

“Considero que el uso indebido que hace Zuck del término ‘código abierto’ es un acto de vandalismo cultural a pequeña escala”, dijo Willison a Ars Technica. “El código abierto debería tener un significado acordado. El abuso del término debilita ese significado, lo que hace que el término sea menos útil en general, porque si alguien dice ‘es código abierto’, eso ya no me dice nada útil. Entonces tengo que investigar y averiguar de qué están hablando realmente”.

Los modelos Llama 3.1 están disponibles para descargar a través de Sitio web propio de Meta y en Cara abrazadaAmbos requieren proporcionar información de contacto y aceptar un licencia y un política de uso aceptablelo que significa que, técnicamente y legalmente, Meta puede retirarle el uso de Llama 3.1 o sus productos en cualquier momento.

Leave a Reply

Your email address will not be published. Required fields are marked *