Cómo Google enseñó a los robots a jugar al ping pong

Cómo Google enseñó a los robots a jugar al ping pong

El dia de ayer, Google Research presentó dos nuevos proyectos ha estado trabajando con un robot que juega al tenis de mesa. los Equipo de robótica en Google enseñó a un brazo robótico a jugar más de 300 tiros con otras personas y devolver servicios con la precisión de los “humanos aficionados”. Si bien esto puede no parecer tan impresionante dado lo malas que son algunas personas en el tenis de mesa, las mismas técnicas podrían usarse para entrenar robots para realizar otras “tareas dinámicas de alta aceleración” que requieren una estrecha interacción humano-robot.

El tenis de mesa es una tarea interesante para que los robots aprendan debido a dos propiedades complementarias: requiere movimientos rápidos y precisos en un juego estructurado que ocurre en un entorno fijo y predecible. El algoritmo de aprendizaje en el que se basa el robot para tomar decisiones tiene que trabajar duro para ser bueno, pero los confines de una mesa de ping-pong limitan la cantidad de mundo con el que tiene que lidiar. Ayuda que jugar tenis de mesa es una tarea que requiere dos partes: el robot puede jugar con otro robot (o simulación) o un ser humano real para entrenar. Todo esto lo convierte en una exce lente configuración para explorar la interacción humano-robot y tecnicas de aprendizaje por refuerzo

(donde el robot aprende haciendo).

Los ingenieros de Google diseñaron dos proyectos separados usando el mismo robot. Iterativo-Sim2RealCuál podría ser presentado en CoRL a finales de este año, y ObjetivosOjoCuál podría ser presentado en IROS la próxima semana. Iterative-Sim2Real es el programa que entrenó al robot para jugar rallies cooperativos de 300 tiros con humanos, mientras que GoalsEye le permite devolver servicios a un punto objetivo específico en la mesa con una precisión humana similar a la de un aficionado.

Iterative-Sim2Real es un intento de superar el “problema del huevo y la gallina” de enseñar a las máquinas a imitar los comportamientos humanos. El equipo de investigación explica que si no tiene una buena política de robots (un conjunto de reglas para el robot) para empezar, entonces no puede recopilar datos de alta calidad sobre cómo las personas interactuarán con él. Pero, sin un modelo de comportamiento humano para empezar, no se puede idear la política de robots en primer lugar. Una solución alternativa es entrenar exclusivamente robots en el mundo real. Sin embargo, este proceso “a menudo es lento, tiene un costo prohibitivo y plantea desafíos relacionados con la seguridad, que se exacerban aún más cuando las personas están involucradas”. En otras palabras, toma mucho tiempo y las personas pueden lastimarse con los brazos robóticos que balancean los bates de tenis de mesa.

Iterative-Sim2Real evita este problema utilizando un modelo muy simple de comportamiento humano como punto de partida y luego entrenando al robot tanto con una simulación como con un ser humano en el mundo real. Después de cada iteración, se refinan tanto el modelo de comportamiento humano como la política de robots. Usando cinco sujetos humanos, el robot entrenado con Iterative-Sim2Real superó un enfoque alternativo llamado sim-a-real más ajuste fino. Tuvo significativamente menos rallies que terminaron en menos de cinco tiros y su duración promedio de rallies fue un 9 por ciento más larga.

GoalsEye, por otro lado, se dispuso a abordar un conjunto diferente de problemas de entrenamiento y le enseñó al robot a devolver la pelota a una ubicación arbitraria como “la esquina trasera izquierda” o “justo sobre la red en el lado derecho”. El aprendizaje por imitación, donde un robot desarrolla una estrategia de juego derivada de los datos de rendimiento humano, es difícil de realizar en entornos de alta velocidad. Hay tantas variables que afectan la forma en que un humano golpea una pelota de ping pong que hace que rastrear todo lo necesario para que un robot aprenda sea prácticamente imposible. El aprendizaje por refuerzo suele ser bueno para estas situaciones, pero puede ser lento y muestra ineficiente, especialmente al principio. (En otras palabras, se necesitan muchas repeticiones para desarrollar una estrategia de juego bastante limitada).

GoalsEye intenta superar ambos conjuntos de problemas utilizando un “conjunto de datos pequeño, débilmente estructurado y no dirigido” inicial que le permite al robot aprender los conceptos básicos de lo que sucede cuando golpea una pelota de ping pong y luego le permite practicar por sí mismo. para enseñarle a golpear la pelota con precisión en puntos específicos. Después de ser entrenado en las 2480 demostraciones iniciales, el robot pudo devolver una pelota dentro de los 30 centímetros (~1 pie) solo el 9 por ciento de las veces. Pero después de practicar por sí mismo durante unos 13 500 disparos, fue preciso el 43 % de las veces.

Si bien enseñar a los robots a jugar puede parecer trivial, el equipo de investigación sostiene que resolver este tipo de problemas de entrenamiento con tenis de mesa tiene aplicaciones potenciales en el mundo real. Iterative-Sim2Real permite que los robots aprendan de la interacción con los humanos, mientras que GoalsEye muestra cómo los robots pueden aprender de los datos no estructurados y la práctica propia en un “entorno preciso y dinámico”. En el peor de los casos: si los grandes objetivos de Google no funcionan, al menos podrían construir un entrenador de tenis de mesa robot.