“Un gran problema”: Dolly es un modelo de IA gratuito, de código abierto y estilo ChatGPT

“Un gran problema”: Dolly es un modelo de IA gratuito, de código abierto y estilo ChatGPT
El logotipo de Dolly de ladrillos de datos

Ladrillos de datos

El miércoles, Databricks lanzó Dolly 2.0, según se informa, el primer modelo de lenguaje grande (LLM) de seguimiento de instrucciones de código abierto para uso comercial que se ha ajustado en un conjunto de datos generado por humanos. Podría servir como un punto de partida convincente para los competidores caseros de ChatGPT.

Databricks es una empresa estadounidense de software empresarial fundada en 2013 por los creadores de chispa apache

. Proporcionan una plataforma basada en web para trabajar con Spark para big data y aprendizaje automático. Al lanzar Dolly, Databricks espera permitir que las organizaciones creen y personalicen LLM “sin pagar por el acceso a la API ni compartir datos con terceros”, según el lanzamiento de Dolly. entrada en el blog
.

Dolly 2.0, su nuevo modelo de 12 mil millones de parámetros, se basa en Pitia de EleutherAI familia de modelos y ajustados exclusivamente en datos de entrenamiento (llamados “databricks-dolly-15k”) obtenidos de empleados de Databricks. Esa calibración le da habilidades más en línea con ChatGPT de OpenAI, que es mejor para responder preguntas y entablar diálogos como un chatbot que un LLM sin procesar que no se ha ajustado.

Dolly 1.0, lanzado en marzo, enfrentó limitaciones con respecto al uso comercial debido a los datos de capacitación, que contenían resultados de ChatGPT (gracias a Alpaca) y estaban sujetos a los términos de servicio de OpenAI. Para abordar este problema, el equipo de Databricks buscó crear un nuevo conjunto de datos que permitiera el uso comercial.

Para hacerlo, Databricks realizó 13 000 demostraciones de comportamiento de seguimiento de instrucciones de más de 5000 de sus empleados entre marzo y abril de 2023. Para incentivar la participación, organizaron un concurso y describieron siete tareas específicas para la generación de datos, incluidas preguntas y respuestas abiertas y preguntas y respuestas cerradas. , extraer y resumir información de Wikipedia, lluvia de ideas, clasificación y escritura creativa.

El conjunto de datos resultante, junto con los pesos del modelo y el código de entrenamiento de Dolly, se han publicado de forma completamente abierta bajo un comunes creativos licencia, lo que permite que cualquier persona use, modifique o amplíe el conjunto de datos para cualquier propósito, incluidas las aplicaciones comerciales.

En contraste, ChatGPT de OpenAI es un modelo patentado que requiere que los usuarios paguen por el acceso a la API y se adhieran a términos de servicio específicos, lo que podría limitar la flexibilidad y las opciones de personalización para empresas y organizaciones. LLaMA de Meta, un modelo de código parcialmente abierto (con pesos restringidos) que recientemente generó una ola de derivados después de sus pesos filtrado en BitTorrent, no permite el uso comercial.

Sobre Mastodon, investigador de IA Simon Willison llamado Dolly 2.0 “realmente un gran problema”. Willison a menudo experimenta con modelos de lenguaje de código abierto, incluida muñequita. “Una de las cosas más emocionantes de Dolly 2.0 es el conjunto de instrucciones de ajuste fino, que fue construido a mano por 5000 empleados de Databricks y lanzado bajo una licencia CC”, escribió Willison en un toque de Mastodon.

Si la reacción entusiasta al modelo LLaMA parcialmente abierto de Meta es una indicación, Dolly 2.0 podría generar una nueva ola de modelos de lenguaje de código abierto que no se ven obstaculizados por limitaciones de propiedad o restricciones de uso comercial. Si bien todavía se corre la voz sobre el verdadero capacidad de rendimientolas mejoras adicionales podrían permitir ejecutar LLM razonablemente potentes en máquinas locales de clase de consumidor.

“Incluso si Dolly 2 no es bueno, espero que pronto veamos un montón de nuevos proyectos usando esos datos de entrenamiento”, dijo Willison a Ars. “Y algunos de ellos podrían producir algo realmente útil”.

Actualmente, el Pesos del carro están disponibles en Hugging Face, y el databricks-dolly-15k conjunto de datos se puede encontrar en GitHub.

Leave a Reply

Your email address will not be published. Required fields are marked *