Meta presenta un nuevo modelo de lenguaje grande que puede ejecutarse en una sola GPU

Una ilustración dramática y colorida. — Benj Edwards / Ars Technica

El viernes, Meta Anunciado un nuevo modelo de lenguaje grande (LLM) impulsado por IA llamado LLaMA-13B que, según afirma, puede superar al modelo GPT-3 de OpenAI a pesar de ser “10 veces más pequeño”. Los modelos de IA de menor tamaño podrían conducir a la ejecución local de asistentes de idioma estilo ChatGPT en dispositivos como PC y teléfonos inteligentes. Es parte de una nueva familia de modelos de lenguaje llamada “Large Language Model Meta AI”, o LLAMA para abreviar.

La colección LLaMA de modelos de lenguaje varía de 7 mil millones a 65 mil millones de parámetros en tamaño. En comparación, el modelo GPT-3 de OpenAI, el modelo fundamental detrás de ChatGPT, tiene 175 000 millones de parámetros.

Meta entrenó sus modelos LLaMA utilizando conjuntos de datos disponibles públicamente, como Rastreo comúnWikipedia, la enciclopedia libre C4, lo que significa que la empresa puede potencialmente lanzar el modelo y las ponderaciones de código abierto. Ese es un nuevo desarrollo dramático en una industria donde, hasta ahora, los jugadores de Big Tech en la carrera de IA se han reservado su tecnología de IA más poderosa.

“A diferencia de Chinchilla, Palmerao GPT-3, solo usamos conjuntos de datos disponibles públicamente, lo que hace que nuestro trabajo sea compatible con el código abierto y reproducible, mientras que la mayoría de los modelos existentes se basan en datos que no están disponibles públicamente o no están documentados”. tuiteó

miembro del proyecto Guillaume Lample.

Hoy lanzamos LLaMA, 4 modelos de base que van desde los parámetros 7B a 65B.
LLaMA-13B supera a OPT y GPT-3 175B en la mayoría de los puntos de referencia. LLaMA-65B es competitivo con Chinchilla 70B y PaLM 540B.
Los pesos para todos los modelos están abiertos y disponibles en https://t.co/q51f2oPZlE
1/n pic.twitter.com/DPyJFBfWEq

— Guillaume Lample (@GuillaumeLample) 24 de febrero de 2023

Meta llama a sus modelos LLaMA “modelos fundamentales”, lo que significa que la empresa tiene la intención de que los modelos formen la base de futuros modelos de IA más refinados construidos a partir de la tecnología, similar a cómo OpenAI construyó ChatGPT a partir de una base de GPT-3. La compañía espera que LLaMA sea útil en la investigación del lenguaje natural y potencialmente impulse aplicaciones como “respuesta a preguntas, comprensión del lenguaje natural o comprensión de lectura, capacidades de comprensión y limitaciones de los modelos de lenguaje actuales”.

Si bien el modelo LLaMA de primera línea (LLaMA-65B, con 65 000 millones de parámetros) va de la mano con ofertas similares de los laboratorios de IA de la competencia DeepMind, Google y OpenAI, posiblemente el desarrollo más interesante proviene del LLaMA. -13B, que, como se mencionó anteriormente, puede superar a GPT-3 mientras se ejecuta en una sola GPU. A diferencia de los requisitos del centro de datos para los derivados de GPT-3, LLaMA-13B abre la puerta para un rendimiento similar a ChatGPT en hardware de nivel de consumidor en un futuro próximo.

El tamaño del parámetro es un gran problema en la IA. Un parámetro es una variable que utiliza un modelo de aprendizaje automático para hacer predicciones o clasificaciones basadas en datos de entrada. La cantidad de parámetros en un modelo de lenguaje es un factor clave en su desempeño, con modelos más grandes generalmente capaces de manejar tareas más complejas y producir resultados más coherentes. Sin embargo, más parámetros ocupan más espacio y requieren más recursos informáticos para ejecutarse. Entonces, si un modelo puede lograr los mismos resultados que otro modelo con menos parámetros, representa una ganancia significativa en eficiencia.

“Ahora estoy pensando que estaremos ejecutando modelos de lenguaje con una parte considerable de las capacidades de ChatGPT en nuestros propios teléfonos móviles y computadoras portátiles (de gama alta) dentro de uno o dos años”. escribió el investigador independiente de IA Simon Willison en un hilo de Mastodon que analiza el impacto de los nuevos modelos de IA de Meta.

Actualmente, una versión simplificada de LLaMA está disponible en GitHub. Para recibir el código completo y los pesos (los datos de entrenamiento “aprendidos” en una red neuronal), Meta proporciona un forma donde los investigadores interesados pueden solicitar acceso. Meta no ha anunciado planes para un lanzamiento más amplio del modelo y los pesos en este momento.

Leave a Reply Cancel reply