Los modelos de lenguaje grandes pueden hacer cosas asombrosas. Pero nadie sabe exactamente por qué.

“Estos son tiempos emocionantes”, dice Boaz Barak, un científico informático de la Universidad de Harvard que está adscrito al equipo de superalineación de OpenAI durante un año. “Muchas personas en este campo a menudo lo comparan con la física de principios del siglo XX. Tenemos muchos resultados experimentales que no entendemos completamente y, a menudo, cuando haces un experimento, te sorprende”.

Código antiguo, trucos nuevos

La mayoría de las sorpresas se refieren a la forma en que los modelos pueden aprender a hacer cosas que no se les ha mostrado cómo hacer. Conocida como generalización, esta es una de las ideas más fundamentales del aprendizaje automático y su mayor enigma. Los modelos aprenden a realizar una tarea (identificar rostros, traducir oraciones, evitar peatones) entrenando con un conjunto específico de ejemplos. Sin embargo, pueden generalizar y aprender a realizar esa tarea con ejemplos que no han visto antes. De alguna manera, los modelos no sólo memorizan patrones que han visto, sino que elaboran reglas que les permiten aplicar esos patrones a casos nuevos. Y a veces, como ocurre con la asimilación, la generalización ocurre cuando no lo esperamos.

Los modelos de lenguajes grandes en particular, como GPT-4 de OpenAI y Gemini de Google DeepMind, tienen una capacidad asombrosa para generalizar. “La magia no es que el modelo pueda aprender problemas matemáticos en inglés y luego generalizarlos a nuevos problemas matemáticos en inglés”, dice Barak, “sino que el modelo pueda aprender problemas matemáticos en inglés, luego ver algo de literatura francesa y a partir de ahí generalizar”. para resolver problemas de matemáticas en francés. Eso es algo que va más allá de lo que las estadísticas pueden revelar”.

Cuando Zhou comenzó a estudiar IA hace unos años, le sorprendió la forma en que sus profesores se centraban en el cómo, pero no en el por qué. “Fue como, así es como se entrena a estos modelos y luego este es el resultado”, dice. “Pero no estaba claro por qué este proceso conduce a modelos que son capaces de hacer estas cosas asombrosas”. Quería saber más, pero le dijeron que no había buenas respuestas: “Mi suposición era que los científicos saben lo que están haciendo. Obtendrían las teorías y luego construirían los modelos. Ese no fue el caso en absoluto”.

Los rápidos avances en el aprendizaje profundo durante los últimos diez años se debieron más a prueba y error que a comprensión. Los investigadores copiaron lo que funcionó para otros y agregaron sus propias innovaciones. Ahora hay muchos ingredientes diferentes que se pueden agregar a los modelos y un libro de cocina en crecimiento lleno de recetas para usarlos. “La gente prueba esto, aquello, todos estos trucos”, dice Belkin. “Algunos son importantes. Algunos probablemente no lo sean”.

“Funciona, lo cual es asombroso. Nos sorprende lo poderosas que son estas cosas”, afirma. Y, sin embargo, a pesar de su éxito, las recetas son más alquimia que química: “Descubrimos ciertos encantamientos a medianoche después de mezclar algunos ingredientes”, dice.

Sobreajuste

El problema es que la IA en la era de los grandes modelos lingüísticos parece desafiar las estadísticas de los libros de texto. Los modelos más potentes de la actualidad son enormes, con hasta un billón de parámetros (los valores de un modelo que se ajustan durante el entrenamiento). Pero las estadísticas dicen que a medida que los modelos crecen, primero deberían mejorar su rendimiento y luego empeorar. Esto se debe a algo llamado sobreajuste.

Cuando un modelo se entrena con un conjunto de datos, intenta ajustar esos datos a un patrón. Imagine un montón de puntos de datos trazados en un gráfico. Un patrón que se ajuste a los datos se puede representar en ese gráfico como una línea que atraviesa los puntos. Se puede considerar que el proceso de entrenamiento de un modelo consiste en lograr que encuentre una línea que se ajuste a los datos de entrenamiento (los puntos que ya están en el gráfico) pero que también se ajuste a los datos nuevos (nuevos puntos).

Código antiguo, trucos nuevos

Sobreajuste

Leave a Reply Cancel reply