
La forma en que medimos el progreso en IA es terrible

Uno de los objetivos de la investigación era definir una lista de criterios que constituyan un buen punto de referencia. “Definitivamente es un problema importante discutir la calidad de los puntos de referencia, lo que queremos de ellos, lo que necesitamos de ellos”, dice Ivanova. “El problema es que no existe un buen estándar para definir puntos de referencia. Este artículo es un intento de proporcionar un conjunto de criterios de evaluación. Eso es muy útil”.
El documento estuvo acompañado por el lanzamiento de un sitio web, Mejor bancoque clasifica los puntos de referencia de IA más populares. Los factores de calificación incluyen si se consultó o no a expertos sobre el diseño, si la capacidad probada está bien definida y otros aspectos básicos (por ejemplo, ¿existe un canal de retroalimentación para el punto de referencia o ha sido revisado por pares)?
El índice de referencia MMLU obtuvo las calificaciones más bajas. “No estoy de acuerdo con estas clasificaciones. De hecho, soy autor de algunos de los artículos con calificaciones altas y diría que los puntos de referencia con calificaciones más bajas son mejores que ellos”, dice Dan Hendrycks, director de CAIS, el Centro para la seguridad de la IA, y uno de los creadores de el punto de referencia MMLU.
Algunos piensan que los criterios pueden no ver el panorama más amplio. “El documento aporta algo valioso. Criterios de implementación y criterios de documentación: todo esto es importante. Mejora los puntos de referencia”, afirma Marius Hobbhahn, director ejecutivo de Apollo Research, una organización de investigación especializada en evaluaciones de IA. “Pero para mí, la pregunta más importante es: ¿se mide lo correcto? Podrías marcar todas estas casillas, pero aun así podrías tener un punto de referencia terrible porque simplemente no mide lo correcto”.
Esencialmente, incluso si un punto de referencia está perfectamente diseñado, uno que pruebe la capacidad del modelo para proporcionar un análisis convincente de los sonetos de Shakespeare puede ser inútil si alguien está realmente preocupado por las capacidades de piratería de la IA.
“Verás un punto de referencia que se supone mide el razonamiento moral. Pero lo que eso significa no necesariamente está muy bien definido. ¿Se están incorporando al proceso personas expertas en ese ámbito? A menudo ese no es el caso”, afirma Amelia Hardy, otra autora del artículo e investigadora de IA en la Universidad de Stanford.
Hay organizaciones que intentan activamente mejorar la situación. Por ejemplo, una nueva punto de referencia de Epoch AI, una organización de investigación, fue diseñado con el aporte de 60 matemáticos y verificado como desafiante por dos ganadores de la Medalla Fields, que es el premio más prestigioso en matemáticas. La participación de estos expertos cumple uno de los criterios del Mejor banco evaluación. Los modelos más avanzados actuales son capaces de responder menos del 2% de las preguntas del benchmark, lo que significa que queda mucho camino por recorrer antes de que se sature.
“Realmente intentamos representar toda la amplitud y profundidad de la investigación matemática moderna”, dice Tamay Besiroglu, directora asociada de Epoch AI. A pesar de la dificultad de la prueba, Besiroglu especula que sólo tomará alrededor de cuatro o cinco años para que los modelos de IA obtengan buenos resultados.