Estos brazos de robot virtuales se vuelven más inteligentes entrenándose unos a otros

Un virtual El brazo robótico ha aprendido a resolver una amplia gama de rompecabezas diferentes.—Apilar bloques, poner la mesa, arreglar las piezas de ajedrez — sin tener que volver a entrenar para cada tarea. Lo hizo jugando contra un segundo brazo robótico que estaba entrenado para enfrentar desafíos cada vez más difíciles.

Auto juego: Desarrol lados por investigadores de OpenAI, los brazos robóticos idénticos, Alice y Bob, aprenden jugando un juego entre sí en una simulación, sin intervención humana. Los robots utilizan el aprendizaje por refuerzo, una técnica en la que las IA se entrenan mediante ensayo y error qué acciones tomar en diferentes situaciones para lograr ciertos objetivos. El juego consiste en mover objetos sobre una mesa virtual. Al ordenar los objetos de formas específicas, Alice intenta armar rompecabezas que a Bob le resultan difíciles de resolver. Bob intenta resolver los acertijos de Alice. A medida que aprenden, Alice establece acertijos más complejos y Bob mejora su resolución.

Multitarea: Los modelos de aprendizaje profundo suelen tener que volver a entrenarse entre tareas. Por ejemplo, AlphaZero (que también aprende jugando contra sí mismo) utiliza un solo algoritmo para aprender a jugar al ajedrez, shogi y Go, pero solo un juego a la vez. El jugador de ajedrez AlphaZero no puede jugar Go y el jugador de Go no puede jugar shogi. Construir máquinas que realmente puedan realizar múltiples tareas es un gran problema sin resolver en el camino hacia una IA más general.

Dojo de IA: Un problema es que entrenar a una IA para realizar múltiples tareas requiere una gran cantidad de ejemplos. OpenAI evita esto entrenando a Alice para que genere los ejemplos para Bob, usando una IA para entrenar a otra. Alice aprendió a establecer metas como construir una torre de bloques, luego levantarla y balancearla. Bob aprendió a utilizar propiedades del entorno (virtual), como la fricción, para agarrar y rotar objetos.

Realidad virtual: Hasta ahora, el enfoque solo se ha probado en una simulación, pero los investigadores de OpenAI y otros lugares están mejorando en la transferencia de modelos entrenados en entornos virtuales a entornos físicos. Una simulación permite que las IA analicen grandes conjuntos de datos en un corto período de tiempo, antes de ajustarlas para configuraciones del mundo real.

Ambición general: Los investigadores dicen que su objetivo final es entrenar a un robot para que resuelva cualquier tarea que una persona pueda pedirle. Al igual que GPT-3, un modelo de lenguaje que puede usar el lenguaje en una amplia variedad de formas diferentes, estos brazos robóticos son parte de la ambición general de OpenAI de construir una IA multitarea. Usar una IA para entrenar a otra podría ser una parte clave de eso.

Leave a Reply

Your email address will not be published. Required fields are marked *