Meta lanza Llama 2, un modelo de IA de código abierto que permite aplicaciones comerciales

Agrandar / Una imagen generada por IA de una llama cibernética.

a mitad de camino

El martes, Meta anunció Llama 2, una nueva familia de código abierto de modelos de lenguaje de IA que destaca por su licencia comercial, lo que significa que los modelos se pueden integrar en productos comerciales, a diferencia de su predecesor. Varían en tamaño de 7 a 70 mil millones de parámetros y, según se informa, “superan a los modelos de chat de código abierto en la mayoría de los puntos de referencia que probamos”, según Meta.

“Esto va a cambiar el panorama del mercado de LLM”, tuiteó Científico jefe de IA Yann Le Cun. “Llama-v2 está disponible en Microsoft Azure y estará disponible en AWS, Hugging Face y otros proveedores”.

Según Meta, sus modelos “preentrenados” de Llama 2 (los modelos básicos) están entrenados en 2 billones de tokens y tienen una ventana de contexto de 4.096 tokens (fragmentos de palabras). La ventana de contexto determina la longitud del contenido que el modelo puede procesar a la vez. Meta también dice que los modelos perfeccionados de Llama 2, desarrollados para aplicaciones de chat similares a ChatGPT, han sido entrenados en “más de 1 millón de anotaciones humanas”.

Si bien no puede igualar el rendimiento del GPT-4 de OpenAI, aparentemente a Llama 2 le va bien para un modelo de código abierto. De acuerdo a ventilador de jim, científico sénior de IA en Nvidia, “70B está cerca de GPT-3.5 en tareas de razonamiento, pero hay una brecha significativa en los puntos de referencia de codificación. Está a la par o mejor que PaLM-540B en la mayoría de los puntos de referencia, pero todavía está muy por detrás de GPT-4 y Palma-2-L”. Se pueden encontrar más detalles sobre el rendimiento, los puntos de referencia y la construcción de Llama 2 en un investigación diario publicado por Meta el martes.

Agrandar / Información de Llama 2 de Meta.

Meta

En febrero, Meta lanzó el precursor de Llama 2, LLaMA, como código abierto con licencia no comercial. Oficialmente solo disponible para académicos con ciertas credenciales, alguien pronto filtró los pesos de LLaMA (archivos que contienen los valores de los parámetros de las redes neuronales entrenadas) a sitios de torrents, y se difundieron ampliamente en la comunidad de IA. Pronto, surgieron variaciones afinadas de LLaMA, como Alpaca, que proporcionaron la semilla de una escena de desarrollo de LLM clandestina de rápido crecimiento.

Llama 2 saca más a la luz esta actividad con su concesión para uso comercial, aunque licenciatarios potenciales con “más de 700 millones de usuarios activos mensuales en el mes calendario anterior” debe solicitar un permiso especial de Meta para usarlo, potencialmente excluyendo su uso gratuito por parte de gigantes del tamaño de Amazon o Google.

El poder y el peligro de la IA de código abierto

Si bien los modelos de IA de código abierto han demostrado ser populares entre los aficionados y las personas que buscan chatbots sin censura, también han resultado controvertidos. Meta se destaca por estar solo entre los gigantes tecnológicos en el soporte de código abierto importante base

modelos, mientras que aquellos en la esquina de código cerrado incluyen OpenAI, Microsoft y Google.

Críticos decir que los modelos de IA de código abierto conllevan riesgos potenciales, como el mal uso en Biología sintética o en generar spam o desinformación. Es fácil imaginar a Llama 2 cumpliendo algunos de estos roles, aunque tales usos violan los términos de servicio de Meta. Actualmente, si alguien realiza actos restringidos con la API ChatGPT de OpenAI, se puede revocar el acceso. Pero con el software de código abierto, una vez que se liberan los pesos, no hay vuelta atrás.

Sin embargo, los defensores de la IA de código abierto a menudo discuten que los modelos de IA de código abierto fomentan la transparencia (en términos de los datos de entrenamiento utilizados para hacerlos), fomentan la competencia económica (sin limitar la tecnología a las empresas gigantes), fomentan la libertad de expresión (sin censura) y democratizan el acceso a la IA (sin restricciones de pago). ).

Quizás adelantándose a las posibles críticas por su lanzamiento de código abierto, Meta también publicado una breve “Declaración de apoyo al enfoque abierto de Meta para la IA de hoy” que dice: “Apoyamos un enfoque de innovación abierta a la IA. La innovación responsable y abierta nos da a todos una participación en el proceso de desarrollo de la IA, brindando visibilidad, escrutinio y confianza a estos Tecnologías La apertura de los modelos Llama de hoy permitirá que todos se beneficien de esta tecnología “.

Hasta el martes por la tarde, la declaración ha sido firmada por una lista de ejecutivos y educadores como Drew Houston (CEO de Dropbox), Matt Bornstein (Socio de Andreessen Horowitz), Julien Chaumond (CTO de Hugging Face), Lex Fridman (científico investigador en .) y Paul Graham (socio fundador de Y Combinator).

Aunque Llama 2 es de código abierto, Meta no reveló la fuente de los datos de entrenamiento utilizados en la creación de los modelos de Llama 2, que Mozilla Senior Fellow of Trustworthy AI Abeba Birhane señaló en Twitter. La falta de transparencia de los datos de capacitación sigue siendo un punto conflictivo para algunos críticos de LLM porque los datos de capacitación que les enseñan a estos LLM lo que “saben” a menudo provienen de una extracción no autorizada de Internet con poca consideración por la privacidad o el impacto comercial. Meta dice que “hizo un esfuerzo para eliminar datos de ciertos sitios que se sabe que contienen un alto volumen de información personal sobre personas privadas” en el trabajo de investigación de Llama 2, pero no enumeró cuáles son esos sitios.

Actualmente, cualquier persona puede solicitar acceso para descargar Llama 2 por llenando un formulario en el sitio web de Meta. Ars Technica envió una solicitud de descarga y recibió un enlace de descarga aproximadamente una hora más tarde, lo que sugiere que la lista puede revisarse manualmente.

El poder y el peligro de la IA de código abierto

Leave a Reply Cancel reply