Una vez “demasiado aterrador” para lanzar, GPT-2 se comprime en una hoja de cálculo de Excel

Una vez “demasiado aterrador” para lanzar, GPT-2 se comprime en una hoja de cálculo de Excel
Una ilustración de robots sentados en un diagrama de bloques lógico.

imágenes falsas

Parece que los modelos de lenguajes grandes (LLM) de IA están en todas partes estos días debido al auge de ChatGPT. Ahora, un desarrollador de software llamado Ishan Anand ha logrado incluir un precursor de ChatGPT llamado GPT-2, lanzado originalmente en 2019 después de cierta inquietud por parte de OpenAI, en una hoja de cálculo funcional de Microsoft Excel. Es disponible de forma gratuita y está diseñado para educar a las personas sobre cómo funcionan los LLM.

“Al usar una hoja de cálculo, cualquiera (incluso los que no son desarrolladores) puede explorar y jugar directamente con cómo funciona un transformador ‘real’ bajo el capó con abstracciones mínimas que estorben”, escribe Anand en el sitio web oficial de la hoja, que llama “Las hojas de cálculo son todo lo que necesitas”. Es un guiño al artículo de investigación de 2017 “Atención es todo lo que necesitas” que describió por primera vez la arquitectura Transformer que ha sido fundamental para el funcionamiento de los LLM.

Anand empaquetó GPT-2 en un formato de archivo binario XLSB de Microsoft Excel y requiere la última versión de Excel para ejecutarse (pero no funcionará en la versión web). Es completamente local y no realiza ninguna llamada API a servicios de IA en la nube.

Aunque la hoja de cálculo contiene un modelo de lenguaje de IA completo, no puedes chatear con ella como ChatGPT. En cambio, los usuarios ingresan palabras en otras celdas y ven los resultados predictivos mostrados en diferentes celdas casi al instante. Recuerde que los modelos de lenguaje como GPT-2 fueron diseñados para hacer predicción del siguiente token, lo que significa que intentan completar una entrada (llamada mensaje, que está codificado en fragmentos llamados tokens) con el texto más probable. La predicción podría ser la continuación de una oración o cualquier otra tarea basada en texto, como un código de software. Diferentes hojas en el archivo Excel de Anand permiten a los usuarios tener una idea de lo que sucede bajo el capó mientras se llevan a cabo estas predicciones.

Las hojas de cálculo son todo lo que necesita solo admite 10 tokens de entrada. Eso es pequeño en comparación con la ventana de contexto de 128.000 tokens de GPT-4 Turbo, pero es suficiente para demostrar algunos principios básicos de cómo funcionan los LLM, que Anand ha detallado en una serie de videos tutoriales gratuitos que ha subido a YouTube.

Un vídeo de Iman Anand demostrando “Las hojas de cálculo son todo lo que necesitas” en un tutorial de YouTube.

En una entrevista con Ars Technica, Anand dice que comenzó el proyecto para poder satisfacer su propia curiosidad y comprender el Transformer en detalle. “La IA moderna es tan diferente de la IA que aprendí cuando estaba obteniendo mi título en informática que sentí que necesitaba volver a los funda mentos para tener realmente un modelo mental de cómo funcionaba”.

Dice que originalmente iba a recrear GPT-2 en JavaScript, pero le encantan las hojas de cálculo; se autodenomina “un adicto a las hojas de cálculo”. Se inspiró en el científico de datos Jeremy Howard. rápido.ai y ex ingeniero de OpenAI Tutoriales de IA de Andrej Karpathy en Youtube.

“Dejé los videos de Karpathy y me di cuenta de que GPT es principalmente un gran gráfico computacional (como una hoja de cálculo)”, dice, “y [I] Me encantó cómo Jeremy utiliza a menudo hojas de cálculo en su curso para que el material sea más accesible. Después de ver a esos dos, de repente me di cuenta de que podría ser posible hacer todo el modelo GPT-2 en una hoja de cálculo”.

Preguntamos: ¿Tuvo alguna dificultad para implementar un LLM en una hoja de cálculo? “El algoritmo real para GPT2 consiste principalmente en muchas operaciones matemáticas, lo cual es perfecto para una hoja de cálculo”, afirma. “De hecho, la parte más difícil es donde las palabras se convierten en números (un proceso llamado tokenización) porque es procesamiento de texto y la única parte que no es matemática. Habría sido más fácil hacer esa parte en un lenguaje de programación tradicional que en una hoja de cálculo.”

Cuando Anand necesitó ayuda, naturalmente recibió un poco de ayuda del descendiente de GPT-2: “En particular, el propio ChatGPT fue muy útil en el proceso en términos de ayudarme a resolver problemas espinosos con los que me encontraba o comprender varias etapas del algoritmo, pero también Tenía alucinaciones, así que tuve que comprobarlo mucho”.

GPT-2 vuelve a viajar

Toda esta hazaña es posible gracias a OpenAI liberado los pesos de la red neuronal y el código fuente de GPT-2 en noviembre de 2019. Es particularmente interesante ver ese modelo en particular integrado en una hoja de cálculo educativa porque cuando se anunció en febrero de 2019, OpenAI tenía miedo de publicarlo: la compañía vio el potencial que GPT-2 podría “utilizarse para generar lenguaje engañoso, sesgado o abusivo a escala”.

Aún así, la compañía lanzó el modelo GPT-2 completo (incluidos los archivos de pesos necesarios para ejecutarlo localmente) en noviembre de 2019, pero el próximo modelo principal de la compañía, GPT-3, que se lanzó en 2020, no recibió un lanzamiento de pesos abiertos. Posteriormente, una variación de GPT-3 formó la base de la versión inicial de ChatGPT, lanzada en 2022.

Un vídeo de Anand demostrando “Las hojas de cálculo son todo lo que necesita” en AI Tinkerers Seattle, octubre de 2023.

La implementación de la hoja de cálculo de Anand ejecuta “GPT-2 Small”, que, a diferencia de la versión completa de 1.500 millones de parámetros de GPT-2, registra 124 millones de parámetros. (Los parámetros son valores numéricos en los modelos de IA que almacenan patrones aprendidos a partir de datos de entrenamiento). En comparación con los 175 mil millones de parámetros en GPT-3 (e incluso modelos más grandes), probablemente no calificaría como un modelo de lenguaje “grande” si se lanzara hoy. Pero en 2019, GPT-2 se consideró de última generación.

Puede descargar la hoja de cálculo con GPT-2 en GitHub, aunque tenga en cuenta que se trata de 1,2 GB. Debido a su complejidad, Anand dijo que con frecuencia puede bloquear o bloquear Excel, especialmente en una Mac; Recomienda ejecutar la hoja en Windows. “Se recomienda encarecidamente utilizar el modo de cálculo manual en Excel y la versión de Excel para Windows (ya sea en un directorio de Windows o mediante Parallels en una Mac)”, escribe en su sitio web.

Y antes de que preguntes, Google Sheets está actualmente fuera de discusión: “Este proyecto en realidad comenzó en Google Sheets, pero el modelo completo de 124M era demasiado grande y se cambió a Excel”, escribe Anand. “Todavía estoy explorando formas de hacer que esto funcione en Google Sheets, pero es poco probable que quepa en un solo archivo como ocurre con Excel”.

Leave a Reply

Your email address will not be published. Required fields are marked *