Stability AI lanza StableLM, una alternativa ChatGPT de código abierto

Agrandar / Una imagen generada por IA de un “loro estocástico” creada por Stability AI.

Benj Edwards / Estabilidad AI / Difusión estable XL

El miércoles, Estabilidad AI liberado

una nueva familia de modelos de lenguaje de IA de código abierto llamada StableLM. Stability espera repetir los efectos catalizadores de su modelo de síntesis de imágenes de código abierto Stable Diffusion, lanzado en 2022. Con refinamiento, StableLM podría usarse para construir una alternativa de código abierto a ChatGPT.

StableLM está actualmente disponible en formato alfa en GitHub en 3 mil millones y 7 mil millones de tamaños de modelos de parámetros, con 15 mil millones y 65 mil millones de modelos de parámetros a seguir, según Stability. La compañía está lanzando los modelos bajo Creative Commons. POR-SA-4.0 licencia, que requiere que las adaptaciones acrediten al creador original y compartan la misma licencia.

Stability AI Ltd. es una empresa con sede en Londres que se ha posicionado como un rival de código abierto de OpenAI que, a pesar de su nombre “abierto”, rara vez lanza modelos de código abierto y mantiene los pesos de su red neuronal: la masa de números que define el funcionalidad central de un modelo de IA: propietario.

“Los modelos lingüísticos formarán la columna vertebral de nuestra economía digital, y queremos que todos tengan voz en su diseño”, escribe Stability en una introducción. entrada en el blog. “Modelos como StableLM demuestran nuestro compromiso con la tecnología de IA que es transparente, accesible y de apoyo”.

Al igual que GPT-4, el modelo de lenguaje grande (LLM) que impulsa la versión más poderosa de ChatGPT, StableLM genera texto al predecir el siguiente token (fragmento de palabra) en una secuencia. Esa secuencia comienza con la información proporcionada por un ser humano en forma de “mensaje”. Como resultado, StableLM puede componer texto y escribir programas similares a los humanos.

Al igual que otros LLM “pequeños” recientes como Meta’s LLaMA, Stanford Alpaca, Cerebras-GPTy Dolly 2.0, StableLM pretende lograr un rendimiento similar al del modelo GPT-3 de referencia de OpenAI mientras usa muchos menos parámetros: 7 000 millones para StableLM frente a 175 000 millones para GPT-3.

Los parámetros son variables que utiliza un modelo de lenguaje para aprender de los datos de entrenamiento. Tener menos parámetros hace que un modelo de idioma sea más pequeño y más eficiente, lo que puede facilitar su ejecución en dispositivos locales como teléfonos inteligentes y computadoras portátiles. Sin embargo, lograr un alto rendimiento con menos parámetros requiere una ingeniería cuidadosa, lo cual es un desafío importante en el campo de la IA.

“Nuestros modelos StableLM pueden generar texto y código y potenciarán una variedad de aplicaciones posteriores”, dice Stability. “Demuestran cómo los modelos pequeños y eficientes pueden ofrecer un alto rendimiento con la capacitación adecuada”.

Según Stability AI, StableLM ha sido capacitado en “un nuevo conjunto de datos experimentales” basado en un conjunto de datos de código abierto llamado La pila, pero tres veces más grande. Stability afirma que la “riqueza” de este conjunto de datos, cuyos detalles promete publicar más adelante, explica el “rendimiento sorprendentemente alto” del modelo en tamaños de parámetros más pequeños en tareas de codificación y conversación.

En nuestros experimentos informales con una versión afinada del modelo 7B de StableLM creado para el diálogo basado en el método Alpaca, descubrimos que parecía funcionar mejor (en términos de resultados que esperaría dado el mensaje) que el modelo LLaMA de parámetros 7B sin procesar de Meta. , pero no al nivel de GPT-3. Las versiones de parámetros más grandes de StableLM pueden resultar más flexibles y capaces.

En agosto del año pasado, Stability financió y publicitó el lanzamiento de código abierto de Stable Diffusion, desarrollado por investigadores del grupo CompVis de la Universidad Ludwig Maximilian de Munich.

Como uno de los primeros modelos de difusión latente de código abierto que podía generar imágenes a partir de indicaciones, Stable Diffusion inició una era de rápido desarrollo en la tecnología de síntesis de imágenes. También creó una fuerte reacción violenta entre artistas y entidades corporativas, algunas de las cuales han demandado a Stability AI. El paso de Stability a los modelos de lenguaje podría inspirar resultados similares.

Los usuarios pueden probar el modelo base StableLM de 7 mil millones de parámetros cara de abrazo y el modelo afinado en Reproducir exactamente. Además, Hugging Face alberga una versión ajustada al diálogo de StableLM con un formato de conversación similar a ChatGPT.

Stability dice que publicará un informe técnico completo sobre StableLM “en un futuro próximo”.

Heaven32: