DeepMind dice que su nuevo modelo de lenguaje puede vencer a otros 25 veces su tamaño

Llamada RETRO (para “Transformador mejorado de recuperación”), la IA iguala el rendimiento de las redes neuronales en 25 veces su tamaño, lo que reduce el tiempo y el costo necesarios para entrenar modelos muy grandes. Los investigadores también afirman que la base de datos facilita el análisis de lo que ha aprendido la IA, lo que podría ayudar a filtrar el sesgo y el lenguaje tóxico.

“Ser capaz de buscar cosas sobre la marcha en lugar de tener que memorizar todo a menudo puede ser útil, de la misma manera que lo es para los humanos”, dice Jack Rae en DeepMind, quien dirige la investigación de la firma en modelos de lenguaje grandes.

Los modelos de lenguaje generan texto al predecir qué palabras vienen a continuación en una oración o conversación. Cuanto más grande es un modelo, más información sobre el mundo puede aprender durante el entrenamiento, lo que mejora sus predicciones. GPT-3 tiene 175 mil millones de parámetros, los valores en una red neuronal que almacenan datos y se ajustan a medida que aprende el modelo. El modelo de lenguaje de Microsoft, Megatron, tiene 530 mil millones de parámetros. Pero los modelos grandes también requieren una gran cantidad de potencia informática para entrenarse, lo que los pone fuera del alcance de todas las organizaciones, excepto las más ricas.

Con RETRO, DeepMind ha tratado de reducir el costo del entrenamiento sin reducir la cantidad que aprende la IA. Los investigadores entrenaron el modelo en un vasto conjunto de datos de artículos de noticias, páginas de Wikipedia, libros y texto de GitHub, un repositorio de código en línea. El conjunto de datos contiene texto en 10 idiomas, incluidos inglés, español, alemán, francés, ruso, chino, suajili y urdu.

La red neuronal de RETRO tiene solo 7 mil millones de parámetros. Pero el sistema lo compensa con una base de datos que contiene alrededor de 2 billones de pasajes de texto. Tanto la base de datos como la red neuronal se entrenan al mismo tiempo.

Cuando RETRO genera texto, utiliza la base de datos para buscar y comparar pasajes similares al que está escribiendo, lo que hace que sus predicciones sean más precisas. La subcontratación de parte de la memoria de la red neuronal a la base de datos permite que RETRO haga más con menos.

La idea no es nueva, pero esta es la primera vez que se desarrolla un sistema de búsqueda para un modelo de lenguaje grande, y la primera vez que se ha demostrado que los resultados de este enfoque compiten con el rendimiento de las mejores IA de lenguaje.

Más grande no siempre es mejor

RETRO se basa en otros dos estudios publicados por DeepMind esta semana, uno que analiza cómo el tamaño de un modelo afecta su rendimiento y otro que analiza los daños potenciales causados ​​por estas IA.

Para estudiar el tamaño, DeepMind construyó un modelo de lenguaje grande llamado Gopher, con 280 mil millones de parámetros. Superó a los modelos más avanzados en el 82% de los más de 150 desafíos de lenguaje común que utilizaron para las pruebas. Luego, los investigadores lo compararon con RETRO y encontraron que el modelo de 7 mil millones de parámetros coincidía con el desempeño de Gopher en la mayoría de las tareas.

El estudio de ética es un estudio completo de problemas bien conocidos inherentes a los modelos lingüísticos de gran tamaño. Estos modelos recogen prejuicios, desinformación y lenguaje tóxico, como el discurso de odio, de los artículos y libros en los que están capacitados. Como resultado, a veces escupen declaraciones dañinas, reflejando sin pensar lo que han encontrado en el texto de capacitación sin saber lo que significa. “Incluso un modelo que imitara perfectamente los datos estaría sesgado”, dice Rae.

Leave a Reply

Your email address will not be published. Required fields are marked *