El avance en la multiplicación de matrices podría conducir a modelos de IA más rápidos y eficientes

El avance en la multiplicación de matrices podría conducir a modelos de IA más rápidos y eficientes
Túnel tecnológico enorme futurista y datos binarios.
Agrandar / Cuando haces matemáticas en una computadora, vuelas a través de un túnel numérico como este (en sentido figurado, por supuesto).

Los científicos informáticos han descubierto una nueva forma de multiplicar matrices grandes más rápido que nunca eliminando una ineficiencia previamente desconocida, informa Revista Quanta. Esto podría eventualmente acelerar los modelos de IA como ChatGPT, que dependen en gran medida de la multiplicación de matrices para funcionar. Los hallazgos, presentados en dos artículos recientes, han llevado a lo que se considera la mayor mejora en la eficiencia de la multiplicación de matrices en más de una década.

Multiplicar dos conjuntos de números rectangulares, conocido como multiplicación de matrices, juega un papel crucial en los modelos de IA actuales, incluido el reconocimiento de voz e imágenes, chatbots de los principales proveedores, generadores de imágenes de IA y modelos de síntesis de video como Sora. Más allá de la IA, las matemáticas matriciales son tan importantes para la informática moderna (piense en el procesamiento de imágenes y la compresión de datos) que incluso un ligero aumento en la eficiencia podría generar ahorros computacionales y de energía.

Las unidades de procesamiento de gráficos (GPU) destacan en el manejo de tareas de multiplicación de matrices debido a su capacidad para procesar muchos cálculos a la vez. Dividen grandes problemas matriciales en segmentos más pequeños y los resuelven simultáneamente mediante un algoritmo.

Perfeccionamiento ese algoritmo ha sido la clave para los avances en la eficiencia de la multiplicación de matrices durante el último siglo, incluso antes de que las computadoras entraran en escena. En octubre de 2022, cubrimos una nueva técnica descubierta por un modelo de IA de Google DeepMind llamado AlphaTensor, centrándonos en mejoras algorítmicas prácticas para tamaños de matrices específicos, como las matrices 4×4.

Por el contrario, el nueva investigaciónrealizado por Ran Duan y Renfei Zhou de la Universidad de Tsinghua, Hongxun Wu de la Universidad de California, Berkeley, y por Virginia Vassilevska Williams, Yinzhan Xu y Zixuan Xu del Instituto de Tecnología de Massachusetts (en un segundo artículo), busca mejoras teóricas apuntando a reducir el exponente de complejidad, ω, para obtener una amplia ganancia de eficiencia en todos los tamaños de matrices. En lugar de encontrar soluciones prácticas e inmediatas como AlphaTensor, la nueva técnica aborda mejoras fundamentales que podrían transformar la eficiencia de la multiplicación de matrices a una escala más general.

Acercándose al valor ideal

El método tradicional para multiplicar dos matrices n por n requiere n³ multiplicaciones separadas. Sin embargo, la nueva técnica, que mejora la “método láser” presentado por Volker Straßen en 1986, ha reducido el límite superior del exponente (denotado como el antes mencionado ω), acercándolo al valor ideal de 2, que representa el número mínimo teórico de operaciones necesarias.

La forma tradicional de multiplicar dos cuadrículas llenas de números podría requerir hacer los cálculos hasta 27 veces para una cuadrícula de 3×3. Pero con estos avances, el proceso se acelera al reducir significativamente los pasos de multiplicación necesarios. El esfuerzo minimiza las operaciones a poco más del doble del tamaño de un lado de la cuadrícula al cuadrado, ajustado por un factor de 2,371552. Esto es muy importante porque casi logra la eficiencia óptima de duplicar las dimensiones del cuadrado, que es lo más rápido que podríamos esperar hacerlo.

He aquí un breve resumen de los acontecimientos. En 2020, Josh Alman y Williams introdujo una mejora significativa en la eficiencia de la multiplicación de matrices al establecer un nuevo límite superior para ω en aproximadamente 2,3728596. En noviembre de 2023, Duan y Zhou reveló un método que abordó una ineficiencia dentro del método láser, estableciendo un nuevo límite superior para ω en aproximadamente 2,371866. El logro marcó el progreso más sustancial en el campo desde 2010. Pero solo dos meses después, Williams y su equipo publicó un segundo artículo que detalló optimizaciones que redujeron el límite superior de ω a 2,371552.

El avance de 2023 surgió del descubrimiento de una “pérdida oculta” en el método láser, donde se descartaban involuntariamente bloques de datos útiles. En el contexto de la multiplicación de matrices, “bloques” se refieren a segmentos más pequeños en los que se divide una matriz grande para facilitar el procesamiento, y el “etiquetado de bloques” es la técnica de categorizar estos segmentos para identificar cuáles conservar y cuáles descartar, optimizando la proceso de multiplicación para mayor velocidad y eficiencia. Al modificar la forma en que el método láser etiqueta los bloques, los investigadores pudieron reducir el desperdicio y mejorar significativamente la eficiencia.

Si bien la reducción de la constante omega puede parecer menor a primera vista (reducir el valor récord de 2020 en 0,0013076), el trabajo acumulativo de Duan, Zhou y Williams representa el progreso más sustancial en el campo observado desde 2010.

“Este es un gran avance técnico”, dijo William Kuszmaul, un informático teórico de la Universidad de Harvard, citado por la revista Quanta. “Es la mayor mejora en la multiplicación de matrices que hemos visto en más de una década”.

Si bien se esperan mayores avances, el enfoque actual tiene limitaciones. Los investigadores creen que comprender el problema más profundamente conducirá al desarrollo de algoritmos aún mejores. Como afirmó Zhou en el informe Quanta: “La gente todavía se encuentra en las primeras etapas de comprensión de este antiguo problema”.

¿Cuáles son entonces las aplicaciones prácticas? Para los modelos de IA, una reducción de los pasos computacionales para las matemáticas matriciales podría traducirse en tiempos de entrenamiento más rápidos y una ejecución más eficiente de las tareas. Podría permitir entrenar modelos más complejos más rápidamente, lo que podría conducir a avances en las capacidades de IA y al desarrollo de aplicaciones de IA más sofisticadas. Además, la mejora de la eficiencia podría hacer que las tecnologías de IA sean más accesibles al reducir la potencia computacional y el consumo de energía necesarios para estas tareas. Eso también reduciría el impacto ambiental de la IA.

El impacto exacto en la velocidad de los modelos de IA depende de la arquitectura específica del sistema de IA y de en qué medida sus tareas dependen de la multiplicación de matrices. Los avances en la eficiencia algorítmica a menudo deben ir acompañados de optimizaciones de hardware para aprovechar al máximo las posibles ganancias de velocidad. Pero aun así, a medida que se vayan acumulando mejoras en las técnicas algorítmicas con el tiempo, la IA se volverá más rápida.

Leave a Reply

Your email address will not be published. Required fields are marked *