Kevin Scott, director de tecnología de Microsoft, cree que las “leyes de escalabilidad” de LLM se mantendrán a pesar de las críticas

Kevin Scott, director de tecnología de Microsoft, cree que las “leyes de escalabilidad” de LLM se mantendrán a pesar de las críticas
Kevin Scott, director de tecnología y vicepresidente ejecutivo de inteligencia artificial en Microsoft, habla en el escenario durante la Conferencia de Código 2023 de Vox Media en The Ritz-Carlton, Laguna Niguel, el 27 de septiembre de 2023 en Dana Point, California.
Agrandar / Kevin Scott, director de tecnología y vicepresidente ejecutivo de inteligencia artificial en Microsoft, habla en el escenario durante la Conferencia de Código 2023 de Vox Media en The Ritz-Carlton, Laguna Niguel, el 27 de septiembre de 2023 en Dana Point, California.

Durante una entrevista Con el podcast Training Data de Sequoia Capital publicado el martes pasado, el director de tecnología de Microsoft, Kevin Scott, reafirmó su creencia de que las llamadas “leyes de escala” del modelo de lenguaje grande (LLM) seguirán impulsando el progreso de la IA, a pesar de cierto escepticismo en el campo de que el progreso se haya estabilizado. Scott jugó un papel papel clave al forjar un acuerdo de intercambio de tecnología por 13 mil millones de dólares entre Microsoft y OpenAI.

“A pesar de lo que piensen otras personas, no estamos en una situación de rendimientos marginales decrecientes en la ampliación de escala”, dijo Scott. “Y trato de ayudar a la gente a entender que aquí hay una exponencial, y lo desafortunado es que solo se puede probar cada dos años porque lleva un tiempo construir supercomputadoras y luego entrenar modelos sobre ellas”.

Las leyes de escalabilidad de LLM hacen referencia a patrones explorados por investigadores de OpenAI en 2020 que muestran que el rendimiento de los modelos de lenguaje tiende a mejorar de manera predecible a medida que los modelos se hacen más grandes (más parámetros), se entrenan con más datos y tienen acceso a más potencia computacional (computación). Las leyes sugieren que simplemente aumentar el tamaño del modelo y los datos de entrenamiento puede generar mejoras significativas en las capacidades de IA sin requerir necesariamente avances algorítmicos fundamentales.

Desde entonces, otros investigadores han desafió la idea

de leyes de escala persistentes a lo largo del tiempo, pero el concepto sigue siendo un piedra angular de la filosofía de desarrollo de IA de OpenAI.

Puedes ver los comentarios de Scott en el video a continuación, comenzando alrededor del minuto 46:05:

Kevin Scott, director de tecnología de Microsoft, explica hasta qué punto se extenderán las leyes de escalabilidad

El optimismo de Scott contrasta con la opinión de algunos críticos de la comunidad de IA de que el progreso en los LLM se ha estancado en torno a los modelos de clase GPT-4. La percepción ha sido alimentada por observaciones en gran medida informales (y algunos resultados de referencia) sobre modelos recientes como Gemini 1.5 Pro de Google, Claude Opus de Anthropic e incluso GPT-4o de OpenAI, que algunos sostienen no han mostrado los dramáticos saltos en capacidad vistos en generaciones anteriores, y que el desarrollo de LLM puede estar acercándose a rendimientos decrecientes.

“Todos sabemos que GPT-3 era mucho mejor que GPT-2. Y todos sabemos que GPT-4 (lanzado hace trece meses) era mucho mejor que GPT-3”. escribió El crítico de AI Gary Marcus en abril. “Pero, ¿qué ha sucedido desde entonces?”

La percepción de la meseta

La postura de Scott sugiere que los gigantes tecnológicos como Microsoft todavía se sienten justificados al invertir fuertemente en modelos de IA más grandes, apostando a avances continuos en lugar de alcanzar una meseta de capacidad. Dada la inversión de Microsoft en OpenAI y la fuerte comercialización de sus propias funciones de inteligencia artificial Microsoft Copilot, la empresa tiene un fuerte interés en mantener la percepción de un progreso continuo, incluso si la tecnología se estanca.

El crítico frecuente de IA, Ed Zitron, recientemente… escribió en una publicación En su blog, escribió que una defensa de la inversión continua en IA generativa es que “OpenAI tiene algo que no conocemos. Una tecnología grande, sexy y secreta que romperá eternamente los huesos de todos los que la odian”. “Sin embargo, tengo un contraargumento: no, no lo hace”.

Algunas percepciones de un progreso más lento en las capacidades y la evaluación comparativa de los LLM pueden deberse a la rápida aparición de la IA en el ojo público cuando, de hecho, los LLM se han estado desarrollando durante años antes. OpenAI continuó desarrollando LLM durante un lapso de aproximadamente tres años entre el lanzamiento de GPT-3 en 2020 y GPT-4 en 2023. Muchas personas probablemente percibieron un salto rápido en capacidad con el lanzamiento de GPT-4 en 2023 porque recién se habían enterado de los modelos de clase GPT-3 con el lanzamiento de ChatGPT a fines de noviembre de 2022, que utilizó GPT-3.5.

En la entrevista en formato podcast, el director de tecnología de Microsoft rechazó la idea de que el progreso de la IA se haya estancado, pero reconoció el desafío de la poca frecuencia de los puntos de datos en este campo, ya que los nuevos modelos suelen tardar años en desarrollarse. A pesar de esto, Scott expresó su confianza en que las futuras iteraciones mostrarán mejoras, en particular en áreas en las que los modelos actuales tienen dificultades.

“La próxima muestra está por llegar, y no puedo decir cuándo ni predecir exactamente qué tan buena será, pero casi con toda seguridad será mejor para las cosas que son frágiles en este momento, donde uno piensa, oh Dios mío, esto es demasiado caro o demasiado frágil para que yo lo use”, dijo Scott en la entrevista. “Todo eso mejora. Se volverá más barato y las cosas se volverán menos frágiles. Y luego serán posibles cosas más complicadas. Esa es la historia de cada generación de estos modelos a medida que los ampliamos”.