Este arcade de 16 juegos para IA pone a prueba su destreza en el juego - TechCrunch

Descubrir en qué es bueno una IA es una de las cosas más difíciles de comprenderlas. Para ayudar a determinar esto, OpenAI tiene diseñó un conjunto de juegos eso puede ayudar a los investigadores a determinar si su agente de aprendizaje automático está realmente aprendiendo habilidades básicas o, lo que es igualmente probable, ha descubierto cómo manipular el sistema a su favor.

Es uno de esos aspectos de la investigación de IA que nunca deja de deleitarse: las formas en que un agente doblará o romperá las reglas en sus esfuerzos por parecer bueno en lo que sea que los investigadores le pidan que haga. Hacer trampa puede estar pensando fuera de la caja, pero no siempre es bienvenido, y una forma de verificarlo es cambiar un poco las reglas y ver si el sistema falla.

Lo que el agente actualmente lo aprendido se puede determinar al ver si esas "habilidades" se pueden aplicar cuando se ponen en nuevas circunstancias en las que solo algo de su conocimiento es relevante.

Por ejemplo, supongamos que desea saber si una IA ha aprendido a jugar un juego similar a Mario donde viaja correctamente y salta obstáculos. Podrías cambiar las cosas para que tenga que caminar a la izquierda; podrías cambiar el orden de los obstáculos; o podrías cambiar el juego por completo y hacer que aparezcan monstruos que la IA tiene que disparar mientras viaja en su lugar.

Si el agente realmente ha aprendido algo acerca de jugar un juego como este, debería poder recoger las versiones modificadas del juego mucho más rápido que algo completamente nuevo. Esto se llama "generalizar", aplicar el conocimiento existente a un nuevo conjunto de circunstancias, y los humanos lo hacen constantemente.

Los investigadores de OpenAI se han encontrado con esto muchas veces en su investigación, y para probar el conocimiento de IA generalizable a un nivel básico, han diseñado una especie de sala de IA donde un agente tiene que demostrar su valía en una variedad de juegos con una superposición variable de conceptos de juego.

Los 16 entornos de juego que diseñaron son similares a los juegos que conocemos y amamos, como Pac-Man, Super Mario Bros., Asteroids, etc. La diferencia es que los entornos se han construido desde cero hacia el juego de IA, con controles, recompensas y gráficos simplificados.

Cada uno grava las habilidades de una IA de una manera diferente. Por ejemplo, en un juego puede que no haya penalización por quedarse quieto y observar el entorno del juego durante unos segundos, mientras que en otros puede poner al agente en peligro. En algunos, la IA debe explorar el entorno, en otros puede centrarse en una sola nave espacial de gran jefe. Pero todos están hechos para ser juegos inequívocamente diferentes, no muy diferentes (aunque obviamente un poco diferentes) de lo que podrías encontrar disponible para una consola Atari o NES.

Aquí está la lista completa, como se ve en el siguiente gif de arriba a abajo, de izquierda a derecha:

Ninja: Sube una torre mientras evitas bombas o las destruyes con estrellas arrojadizas.
Coinrun: Consigue la moneda en el lado derecho del nivel mientras evitas trampas y monstruos.
Saqueo: Dispara balas de cañón desde la parte inferior de la pantalla para golpear las naves enemigas y evitar amistosos.
Caveflyer: Navega por las cuevas con controles de estilo Asteroides, dispara a los enemigos y evita los obstáculos.
Saltador: Juego de plataformas de mundo abierto con un conejo de doble salto y una brújula apuntando hacia la meta.
Minero: Cava a través de la tierra para obtener diamantes y rocas que obedecen las reglas de gravedad de la era Atari.
Laberinto: Navega laberintos generados al azar de varios tamaños.
Gran pez: Come peces más pequeños que tú para convertirte en el pez más grande, mientras evitas un destino similar.
Cazador: Al igual que Pac-Man, come los puntos y usa pellets de poder estratégicamente para comer enemigos.
Starpilot: El shmup similar a Gradius se centró en esquivar y eliminar rápidamente las naves enemigas.
Lucha del jefe: Batalla 1 contra 1 con un barco jefe con ataques seleccionados al azar y reposición de escudos.
Atraco: Navega por un laberinto con cerraduras de colores y las teclas correspondientes.
Fruitbot: Asciende a través de los niveles mientras recoges fruta y evitas la no fruta.
Dodgeball: Muévase por una habitación sin tocar las paredes, golpear a otros con bolas y evitar ser golpeado.
Trepador: Suba una serie de plataformas que recogen estrellas en el camino y evitan monstruos.
Saltador: Juego de cruce de carriles tipo Frogger con autos, troncos, etc.

Puedes imaginar que se podría crear una IA que sobresalga en las basadas en cuadrícula como Heist, Maze y Chaser, pero que pierda la pista en Jumper, Coinrun y Bossfight. Al igual que un humano, porque hay diferentes habilidades involucradas en cada uno. Pero también hay otros compartidos: entender que el personaje del jugador y los objetos en movimiento pueden tener consecuencias, o que ciertas áreas del área de juego son inaccesibles. Una IA que pueda generalizar y adaptarse rápidamente aprenderá a dominar todos estos juegos en un tiempo más corto que uno que no generaliza bien.

El conjunto de juegos y métodos para observar y calificar el desempeño del agente en ellos se llama el punto de referencia de ProcGen, ya que los entornos y las ubicaciones enemigas en los juegos se generan de manera procesal. Puedes leer más sobre ellos o aprender a construir tu propio arcade de IA, en la página de GitHub del proyecto.

LO MÁS LEÍDO

Este arcade de 16 juegos para IA pone a prueba su destreza en el juego – TechCrunch

Leave a Reply Cancel reply