Por qué es impresionante que una IA pueda jugar Stratego

Una nueva IA llamada “DeepNash” ha dominado Stratego, uno de los pocos juegos de mesa icónicos donde las computadoras no derrotan regularmente a los jugadores humanos. según un artículo publicado esta semana. Es un resultado enorme y sorprendente, al menos para la comunidad de Stratego.

Stratego es un juego con dos desafíos distintos: requiere un pensamiento estratégico a largo plazo (como el ajedrez) y también requiere que los jugadores manejen información incompleta (como el póquer). El objetivo es moverse por el tablero y capturar la pieza de la bandera del otro jugador. Cada juego tiene lugar en un tablero cuadriculado de 10 x 10 con dos lagos cuadrados de 2 x 2 que bloquean el centro del tablero. Ambos jugadores tienen 40 piezas con diferentes valores tácticos que pueden desplegarse al comienzo del juego; el problema es que no puedes ver cuáles son las piezas de tu oponente y ellos no pueden ver cuáles son las tuyas. Cuando estás planeando un ataque, no sabes si el defensor es un mariscal de alto rango que vencerá a casi todas tus piezas o un sargento humilde que puede ser eliminado por un teniente o un capitán. Algunas de las otras piezas jugables incluyen bombas (poderosas pero inmóviles), exploradores (que pueden mover más de un cuadrado a la vez) y mineros (que pueden desactivar bombas) que se suman a la complejidad táctica. El juego solo termina cuando se captura la pieza de la bandera de un jugador o ya no pueden realizar ningún movimiento legal.

Todo esto es para decir que Stratego crea un desafío único para que lo resuelvan las computadoras. El ajedrez es relativamente fácil porque toda la información es visible para todos; en la teoría de juegos, se denomina “juego de información perfecta”. Una computadora puede observar sus defensas, simular 10 o más movimientos para obtener algunas opciones diferentes y elegir la mejor. Les da una seria ventaja estratégica incluso sobre los mejores jugadores humanos. También ayuda que el ajedrez sea un juego que tiende a ganarse o perderse en unos pocos momentos clave en lugar de una presión gradual. El juego de ajedrez promedio toma alrededor de 40 movimientos

mientras que estratego toma mas de 380. Esto significa que cada movimiento en el ajedrez es mucho más importante (y para los humanos, merece mucha más consideración), mientras que Stratego es más rápido y flexible.

[Related: Meta’s new AI can use deceit to con quer a board game world]

Stratego, por otro lado, es un “juego de información imperfecto”. Hasta que la pieza de un oponente ataque o sea atacada, no tienes forma de saber qué es. En el póquer, un juego de información imperfecta que las computadoras han podido jugar a un alto nivel durante años, hay 10 ^ 164 estados de juego posibles y cada jugador solo tiene 10 ^ 3 posibles manos iniciales de dos cartas. En Stratego, hay 10 ^ 535 estados posibles y más de 10 ^ 66 implementaciones posibles, lo que significa que hay mucha más información desconocida para tener en cuenta. Y eso se suma a los desafíos estratégicos.

Combinados, los dos desafíos hacen que Stratego sea especialmente difícil para las computadoras (o los investigadores de IA). Según el equipo, “no es posible utilizar técnicas de planificación de información perfecta basadas en modelos de última generación ni técnicas de búsqueda de información imperfecta de última generación que dividan el juego en situaciones independientes”. La computadora tiene que ser capaz de hacer planes estratégicos que incorporen la información imperfecta que tiene disponible.

Pero DeepNash ha podido lograrlo. Los investigadores utilizaron un método novedoso que permitió que la IA aprendiera a jugar Stratego por sí misma mientras desarrollaba sus propias estrategias. Usó un algoritmo de aprendizaje de refuerzo de modelos llamado Regularized Nash Dynamics (R-NaD) combinado con una arquitectura de red neuronal profunda que busca un equilibrio de Nash—“una estrategia inexplotable en juegos de dos jugadores de suma cero” como Stratego— y al hacerlo, podría aprender el “comportamiento cualitativo que uno podría esperar que domine un jugador superior”. Este es un enfoque que se ha utilizado antes en juegos simples al estilo Prisoners Dilemma, pero nunca con un juego tan complejo como este.

DeepNash se probó con los mejores bots de Stratego existentes y jugadores humanos expertos. Venció a todos los demás bots y fue altamente competitivo contra los humanos expertos en Importancia, una plataforma de juegos de mesa en línea. Aún mejor, desde un punto de vista cualitativo, pudo jugar bien. Podría hacer concesiones entre tomar material y ocultar la identidad de sus piezas, ejecutar faroles e incluso realizar apuestas calculadas. (Aunque los investigadores también consideran que términos como “engaño” y “farol” bien podrían referirse a estados mentales que DeepNash es incapaz de tener).

En total, es una demostración emocionante de una nueva forma de entrenar modelos de IA para jugar juegos (y tal vez realizar otras tareas similares en el futuro), y no se basa en estrategias de búsqueda profunda computacionalmente pesadas que se han utilizado anteriormente para jugar otros juegos como ajedrez, go y póquer.

Leave a Reply Cancel reply