Ahora puede ejecutar un modelo de IA de nivel GPT-3 en su computadora portátil, teléfono y Raspberry Pi

Ars Technica

Las cosas se mueven a la velocidad del rayo en AI Land. El viernes, un desarrollador de software llamado Georgi Gerganov creó una herramienta llamada “llama.cpp” que puede ejecutar el nuevo modelo de lenguaje grande de IA de clase GPT-3 de Meta, LLaMA, localmente en una computadora portátil Mac. Poco después, la gente hizo ejercicio cómo ejecutar LLaMA en Windows también. entonces alguien lo mostró corriendo en un teléfono Pixel 6, y luego vino una frambuesa pi (aunque corriendo muy lento).

Si esto continúa, es posible que estemos ante un competidor de ChatGPT de bolsillo antes de que nos demos cuenta.

Pero retrocedamos un minuto, porque aún no hemos llegado allí. (Al menos no hoy, literalmente hoy, 13 de marzo de 2023). Pero lo que llegará la próxima semana, nadie lo sabe.

Desde que se lanzó ChatGPT, algunas personas se han sentido frustradas por los límites integrados del modelo de IA que le impiden discutir temas que OpenAI ha considerado confidenciales. Así comenzó la sueño-en algunos sectores, de un modelo de lenguaje grande (LLM) de código abierto que cualquiera podría ejecutar localmente sin censura y sin pagar tarifas de API a OpenAI.

Existen soluciones de código abierto (como GPT-J), pero ellos requerir mucha GPU RAM y espacio de almacenamiento. Otras alternativas de código abierto no podían presumir de un rendimiento de nivel GPT-3 en hardware de nivel de consumidor fácilmente disponible.

Ingrese a LLaMA, un LLM disponible en tamaños de parámetros que van desde 7B a 65B (eso es “B” como en “mil millones de parámetros”, que son números de punto flotante almacenados en matrices que representan lo que el modelo “sabe”). LLaMA hizo una afirmación embriagadora: que sus modelos de menor tamaño podrían igualar el GPT-3 de OpenAI, el modelo fundamental que impulsa a ChatGPT, en la calidad y velocidad de su salida. Solo había un problema: Meta lanzó el código LLaMA de código abierto, pero retuvo los “pesos” (el “conocimiento” entrenado almacenado en una red neuronal) solo para investigadores calificados.

Volando a la velocidad de LLaMA

Las restricciones de Meta a LLaMA no duraron mucho, porque el 2 de marzo, alguien se filtraron los pesos de LLaMA en BitTorrent. Desde entonces, ha habido una explosión de desarrollo en torno a LLaMA. El investigador independiente de IA Simon Willison ha comparado esta situación al lanzamiento de Stable Diffusion, un modelo de síntesis de imágenes de código abierto que se lanzó en agosto pasado. Esto es lo que escribió en una publicación en su blog:

Me parece que ese momento de Stable Diffusion en agosto inició toda la nueva ola de interés en la IA generativa, que luego se aceleró con el lanzamiento de ChatGPT a fines de noviembre.

Ese momento de difusión estable está sucediendo nuevamente en este momento, para modelos de lenguaje grandes: la tecnología detrás de ChatGPT. ¡Esta mañana ejecuté un modelo de lenguaje de clase GPT-3 en mi computadora portátil personal por primera vez!

Las cosas de la IA ya eran raras. Está a punto de volverse mucho más extraño.

Por lo general, ejecutar GPT-3 requiere varias GPU A100 de clase de centro de datos (además, los pesos para GPT-3 no son públicos), pero LLaMA causó sensación porque podía ejecutarse en una sola GPU de consumo robusta. Y ahora, con optimizaciones que reducen el tamaño del modelo usando una técnica llamada cuantización, LLaMA puede ejecutarse en una Mac M1 o en una GPU de consumo Nvidia menor.

Las cosas se mueven tan rápido que a veces es difícil mantenerse al día con los últimos desarrollos. (Con respecto a la tasa de progreso de AI, un compañero reportero de AI le dijo a Ars: “Es como esos videos de perros en los que arrojas una caja de pelotas de tenis sobre ellos. [They] no sé dónde perseguir primero y perderme en la confusión”).

Por ejemplo, aquí hay una lista de eventos notables relacionados con LLaMA basados ​​en un línea de tiempo Willison expuso en un comentario de Hacker News:

  • 24 de febrero de 2023: Meta AI anuncia LLaMA.
  • 2 de marzo de 2023: Alguien se filtran los modelos LLaMA a través de BitTorrent.
  • 10 de marzo de 2023: Georgi Gerganov crea llama.cppque puede ejecutarse en una Mac M1.
  • 11 de marzo de 2023: Artem Andreenko corre LLaMA 7B (lentamente) en una Raspberry Pi 44GB RAM, 10 seg/token.
  • 12 de marzo de 2023: LLAMA 7B corriendo en NPX, una herramienta de ejecución de node.js.
  • 13 de marzo de 2023: alguien ejecuta llama.cpp en un teléfono Pixel 6también muy lentamente.
  • 13 de marzo de 2023, 2023: lanzamientos de Stanford Alpaca 7Buna versión ajustada a las instrucciones de LLaMA 7B que “se comporta de manera similar al” texto-davinci-003 “de OpenAI, pero se ejecuta en un hardware mucho menos potente.

Después de obtener nosotros mismos los pesos de LLaMA, seguimos las instrucciones de Willison y conseguimos que la versión del parámetro 7B se ejecutara en un M1 Macbook Air, y funciona a una velocidad razonable. Lo llama como un script en la línea de comando con un mensaje, y LLaMA hace todo lo posible para completarlo de una manera razonable.

Agrandar / Una captura de pantalla de LLaMA 7B en acción en un MacBook Air con llama.cpp.

Benj Edwards / Ars Technica

Todavía queda la cuestión de cuánto afecta la cuantización a la calidad de la salida. En nuestras pruebas, LLaMA 7B reducido a cuantización de 4 bits fue muy impresionante para ejecutarse en una MacBook Air, pero aún no está a la altura de lo que podría esperar de ChatGPT. Es muy posible que mejores técnicas de incitación generen mejores resultados.

Además, las optimizaciones y los ajustes finos llegan rápidamente cuando todos tienen en sus manos el código y los pesos, aunque LLaMA todavía tiene que cargar con algunos bastante restrictivo condiciones de uso. El suelta de alpaca today by Stanford demuestra que el ajuste fino (entrenamiento adicional con un objetivo específico en mente) puede mejorar el rendimiento, y aún es pronto después del lanzamiento de LLaMA.

Al momento de escribir este artículo, ejecutar LLaMA en una Mac sigue siendo un ejercicio bastante técnico. Debe instalar Python y Xcode y estar familiarizado con el trabajo en la línea de comandos. Willison tiene buena instrucciones paso a paso para cualquiera que quiera intentarlo. Pero eso puede cambiar pronto a medida que los desarrolladores continúen codificando.

En cuanto a las implicaciones de tener esta tecnología en la naturaleza, nadie lo sabe todavía. Si bien algunos se preocupan por el impacto de la IA como herramienta para el spam y la información errónea, Willison dice: “No se dejará de inventar, por lo que creo que nuestra prioridad debería ser descubrir las formas más constructivas posibles de usarla”.

En este momento, nuestra única garantía es que las cosas cambiarán rápidamente.

Heaven32: