xAI de Elon Musk publica la fuente y los pesos de Grok, burlándose de OpenAI

Una imagen generada por IA publicada por xAI durante el lanzamiento de Grok — Agrandar / Una imagen generada por IA publicada por xAI durante el lanzamiento de pesos abiertos de Grok-1.

El domingo, la firma de inteligencia artificial xAI de Elon Musk lanzó los pesos del modelo base y la arquitectura de red de Grok-1, un modelo de lenguaje grande diseñado para competir con los modelos que impulsan ChatGPT de OpenAI. El lanzamiento de pesos abiertos a través de GitHub y BitTorrent se produce mientras Musk continúa criticando (y demandando) a su rival OpenAI por no lanzar sus modelos de IA de manera abierta.

Anunciado en noviembre, Grok es un asistente de inteligencia artificial similar a ChatGPT que está disponible para los suscriptores de X Premium+ que pagan $16 al mes a la plataforma de redes sociales anteriormente conocida como Twitter. En su corazón hay un mezcla de expertos LLM llamado “Grok-1”, con 314 mil millones de parámetros. Como referencia, GPT-3 incluía 175 mil millones de parámetros. El recuento de parámetros es una medida aproximada de la complejidad de un modelo de IA y refleja su potencial para generar respuestas más útiles.

xAI está lanzando el modelo base de Grok-1, que no está ajustado para una tarea específica, por lo que probablemente no sea el mismo modelo que X usa para impulsar su asistente Grok AI. “Este es el punto de control del modelo base en bruto de la fase de preentrenamiento de Grok-1, que concluyó en octubre de 2023”, escribe xAI en su página de lanzamiento. “Esto significa que el modelo no está ajustado para ninguna aplicación específica, como el diálogo”, lo que significa que no necesariamente se presenta como un chatbot. Pero hará una predicción del siguiente token, lo que significa que completará una oración (u otro mensaje de texto) con su estimación de la cadena de texto más relevante.

“No es un modelo adaptado a instrucciones”, dice el investigador de IA Simon Willison, que habló con Ars por mensaje de texto. “Lo que significa que se necesita un trabajo adicional sustancial para llegar al punto en el que pueda operar en un contexto conversacional. Será interesante ver si alguien externo a xAI con las habilidades y la capacidad de cómputo pone ese trabajo”.

Musk anunció inicialmente que Grok se lanzaría como “código abierto” (más sobre esa terminología a continuación). en un tuit publicado el pasado lunes. El anuncio se produjo después de que Musk demandara a OpenAI y sus ejecutivos, acusándolos de priorizar las ganancias sobre los lanzamientos de modelos abiertos de IA. Musk fue cofundador de OpenAI pero ya no está asociado con la compañía, pero regularmente incita a OpenAI a lanzar sus modelos como código abierto o pesos abiertos, como muchos creen que el nombre de la compañía sugiere que debería hacer.

El 5 de marzo, OpenAI respondió a las acusaciones de Musk revelando correos electrónicos antiguos que parecían sugerir que Musk alguna vez estuvo de acuerdo con el cambio de OpenAI a un modelo de negocio con fines de lucro a través de un subsidiario

. OpenAI también dijo que la palabra “abierto” en su nombre sugiere que sus productos resultantes estarían disponibles para el beneficio de todos en lugar de ser un enfoque de código abierto. Ese mismo día, Musk tuiteó (dividido en dos tuits), “Cambie su nombre a ClosedAI y retiraré la demanda”. Su anuncio de liberar abiertamente a Grok se produjo cinco días después.

Grok-1: un modelo robusto

Entonces Grok-1 ya está disponible, pero ¿alguien puede ejecutarlo? xAI ha publicado los pesos del modelo base y la arquitectura de red bajo el licencia apache 2.0. El código de inferencia es disponible para descargar en GitHuby los pesos se pueden obtener a través de un enlace de Torrent que aparece en la página de GitHub.

Con un tamaño de punto de control de pesos de 296 GB, es probable que solo el hardware de inferencia de clase de centro de datos tenga la RAM y la potencia de procesamiento necesarias para cargar todo el modelo a la vez (a modo de comparación, el archivo de pesos más grande de Llama 2, un modelo 70B de precisión de 16 bitstiene un tamaño de alrededor de 140 GB).

Hasta ahora, no hemos visto a nadie ejecutarlo localmente, pero hemos escuchado informes de que hay gente trabajando en un modelo cuantificado eso reducirá su tamaño para que pueda ejecutarse en hardware GPU de consumo (sin embargo, hacer esto también reducirá drásticamente su capacidad de procesamiento).

Willison confirmó nuestras sospechas diciendo: “Es difícil evaluar [Grok-1] ahora mismo porque es muy grande—un [massive] archivo torrent, y luego necesitas un conjunto completo de costosas GPU para ejecutarlo. Es posible que en las próximas semanas haya versiones cuantizadas producidas por la comunidad que tengan un tamaño más práctico, pero si no es al menos competitiva en calidad con Mixtral, es difícil entusiasmarse demasiado con ello”.

Apropiadamente, xAI no llama al debut de Grok-1 en GitHub una versión de “código abierto” porque ese término tiene una significado específico en software, y la industria aún no ha establecido un término para los lanzamientos de modelos de IA que envían códigos y pesos con restricciones (como Meta’s Llama 2) o envían códigos y pesos sin publicar también datos de entrenamiento, lo que significa el proceso de entrenamiento del modelo de IA. no puede ser replicado por otros. Por lo tanto, normalmente llamamos a estas versiones “fuente disponible” o “pesos abiertos”.

“Lo más interesante es que tiene una licencia Apache 2”, afirma Willison. “Ninguna de las licencias no del todo compatibles con OSI se utiliza para modelos como Llama 2, y es uno de los modelos de peso abierto más grandes que se haya lanzado hasta ahora”.

Grok-1: un modelo robusto

Leave a Reply Cancel reply