El auge de la IA de código abierto se basa en los folletos de Big Tech. ¿Cuánto tiempo va a durar?

El primer lanzamiento de Stability AI, el modelo de texto a imagen Stable Diffusion, funcionó tan bien, si no mejor, que sus equivalentes cerrados como Imagen de Google y DALL-E de OpenAI. No solo era de uso gratuito, sino que también se ejecutaba en una buena computadora doméstica. Stable Diffusion hizo más que cualquier otro modelo para provocar la explosión del desarrollo de código abierto en torno a la IA de creación de imágenes el año pasado.

dos puertas hechas de cielos azules se abren mientras una pantalla parcial cubre la entrada desde arriba

Esta vez, sin embargo, Mostaque quiere manejar las expectativas: StableLM no se acerca a igualar a GPT-4. “Todavía hay mucho trabajo por hacer”, dice. “No es como Stable Diffusion, donde inmediatamente tienes algo que es súper utilizable. Los modelos de lenguaje son más difíciles de entrenar”.

Otro problema es que los modelos son más difíciles de entrenar cuanto más grandes se vuelven. Eso no se debe solo al costo de la potencia informática. El proceso de entrenamiento falla más a menudo con modelos más grandes y debe reiniciarse, lo que hace que esos modelos sean aún más costosos de construir.

En la práctica, existe un límite superior para la cantidad de parámetros que la mayoría de los grupos pueden permitirse entrenar, dice Biderman. Esto se debe a que los modelos gran des deben entrenarse en múltiples GPU diferentes, y conectar todo ese hardware es complicado. “Entrenar con éxito modelos a esa escala es un campo muy nuevo de investigación en computación de alto rendimiento”, dice.

El número exacto cambia a medida que avanza la tecnología, pero en este momento Biderman coloca ese techo aproximadamente en el rango de 6 a 10 mil millones de parámetros. (En comparación, GPT-3 tiene 175 mil millones de parámetros; LLaMA tiene 65 mil millones). No es una correlación exacta, pero en general, los modelos más grandes tienden a funcionar mucho mejor.

Biderman espera que continúe la oleada de actividad en torno a los grandes modelos de lenguaje de código abierto. Pero se centrará en ampliar o adaptar algunos modelos preentrenados existentes en lugar de impulsar la tecnología fundamental. “Solo hay un puñado de organizaciones que han entrenado previamente estos modelos, y anticipo que seguirá siendo así en el futuro cercano”, dice.

Es por eso que muchos modelos de código abierto se construyen sobre LLaMA, que fue entrenado desde cero por Meta AI, o versiones de EleutherAI, una organización sin fines de lucro que es única en su contribución a la tecnología de código abierto. Biderman dice que solo conoce otro grupo como este, y está en China.

EleutherAI comenzó gracias a OpenAI. Rebobine hasta 2020 y la firma con sede en San Francisco acababa de lanzar un nuevo modelo atractivo. “GPT-3 supuso un gran cambio para mucha gente en su forma de pensar acerca de la IA a gran escala”, dice Biderman. “A menudo se le acredita como un cambio de paradigma intelectual en términos de lo que la gente espera de estos modelos”.

Leave a Reply Cancel reply