Un patio de recreo que se regenera sin cesar enseña a las IA cómo realizar múltiples tareas

Durante el entrenamiento, los jugadores se enfrentan primero a juegos sencillos de un jugador, como encontrar un cubo morado o colocar una bola amarilla en un suelo rojo. Avanzan a juegos multijugador más complejos como el escondite o la captura de la bandera, donde los equipos compiten para ser los primeros en encontrar y agarrar la bandera de su oponente. El administrador del patio de recreo no tiene un objetivo específico, pero tiene como objetivo mejorar la capacidad general de los jugadores a lo largo del tiempo.

¿Por qué es esto genial? IA como AlphaZero de DeepMind han vencido a los mejores jugadores humanos del mundo en ajedrez y Go. Pero solo pueden aprender un juego a la vez. Como dijo el cofundador de DeepMind, Shane Legg, cuando hablé con él el año pasado, es como tener que cambiar tu cerebro de ajedrez por tu cerebro de Go cada vez que quieres cambiar de juego.

Los investigadores ahora están tratando de construir IA que puedan aprender múltiples tareas a la vez, lo que significa enseñarles habilidades generales que faciliten la adaptación.

video de agentes de IA experimentando en un entorno virtual — Habiendo aprendido a experimentar, estos bots improvisaron una rampa

Una tendencia interesante en esta dirección es el aprendizaje abierto, donde las IA se entrenan en muchas tareas diferentes sin un objetivo específico. En muchos sentidos, así es como los humanos y otros animales parecen aprender, a través del juego sin rumbo fijo. Pero esto requiere una gran cantidad de datos. XLand genera esos datos automáticamente, en forma de un sinfín de desafíos. Esto es similar a POETA, un dojo de entrenamiento de IA donde los robots de dos piernas aprenden a sortear obstáculos en un paisaje 2D. Sin embargo, el mundo de XLand es mucho más complejo y detallado.

XLand también es un ejemplo de la inteligencia artificial que aprende a hacerse a sí misma, o lo que Jeff Clune, quien ayudó a desarrollar POET y lidera un equipo que trabaja en este tema en OpenAI, llama algoritmos de generación de inteligencia artificial (AI-GA). “Este trabajo amplía las fronteras de los AI-GA”, dice Clune. “Es muy emocionante verlo”.

Leave a Reply Cancel reply