El último modelo de IA de Meta es gratuito para todos

Bajo el capó

Preparar LLaMA 2 para su lanzamiento requirió muchos ajustes para hacer que el modelo fuera más seguro y menos propenso a arrojar falsedades tóxicas que su predecesor, dice Al-Dahle.

Meta tiene muchos errores del pasado de los que aprender. Su modelo de lenguaje para la ciencia, Galactica, se desconectó después de solo tres días, y su modelo anterior LlaMA, que estaba destinado solo para fines de investigación, se filtró en línea, lo que provocó críticas de politicos

quien cuestionó si Meta estaba tomando debidamente en cuenta los riesgos asociados con los modelos de lenguaje de IA, como la desinformación y el acoso.

Para mitigar el riesgo de repetir estos errores, Meta aplicó una combinación de diferentes técnicas de aprendizaje automático destinadas a mejorar la utilidad y la seguridad.

El enfoque de Meta para entrenar LLaMA 2 tuvo más pasos de lo habitual para los modelos generativos de IA, dice Sasha Luccioni, investigadora de la startup de IA Hugging Face.

El modelo se entrenó con un 40 % más de datos que su predecesor. Al-Dahle dice que había dos fuentes de datos de entrenamiento: datos que se extrajeron en línea y un conjunto de datos ajustado y ajustado de acuerdo con los comentarios de los anotadores humanos para comportarse de una manera más deseable. La compañía dice que no usó datos de usuarios de Meta en LLaMA 2 y excluyó datos de sitios que sabía que tenían mucha información personal.

A pesar de eso, LLaMA 2 todavía arroja un lenguaje ofensivo, dañino y problemático, al igual que los modelos rivales. Meta dice que no eliminó los datos tóxicos del conjunto de datos, porque dejarlos podría ayudar a LLaMA 2 a detectar mejor el discurso de odio, y eliminarlos podría correr el riesgo de filtrar accidentalmente algunos grupos demográficos.

Sin embargo, el compromiso de Meta con la apertura es emocionante, dice Luccioni, porque permite a investigadores como ella estudiar adecuadamente los sesgos, la ética y la eficiencia de los modelos de IA.

El hecho de que LLaMA 2 sea un modelo de código abierto también permitirá a los investigadores y desarrolladores externos investigarlo en busca de fallas de seguridad, lo que lo hará más seguro que los modelos propietarios, dice Al-Dahle.

Liang está de acuerdo. “Estoy muy emocionado de probar cosas y creo que será beneficioso para la comunidad”, dice.

Bajo el capó

Leave a Reply Cancel reply