
La IA generativa enseñó a un perro robot a moverse en un nuevo entorno

Los investigadores utilizaron el sistema, llamado LucidSim, para entrenar a un perro robot en parkour, haciéndolo trepar por una caja y subir escaleras, a pesar de nunca haber visto ningún dato del mundo real. El enfoque demuestra cuán útil podría ser la IA generativa cuando se trata de enseñar a los robots a realizar tareas desafiantes. También plantea la posibilidad de que, en última instancia, podamos entrenarlos en mundos completamente virtuales. El investigación se presentó en la Conferencia sobre Apr endizaje de Robots (CoRL) la semana pasada.
“Estamos en medio de una revolución industrial para la robótica”, dice Ge Yang, investigador postdoctoral en . CSAIL que trabajó en el proyecto. “Este es nuestro intento de comprender el impacto de estos [generative AI] modelos fuera de sus propósitos originales, con la esperanza de que nos lleve a la próxima generación de herramientas y modelos”.
LucidSim utiliza una combinación de modelos de IA generativa para crear datos de entrenamiento visual. En primer lugar, los investigadores generaron miles de mensajes para ChatGPT, consiguiendo que creara descripciones de una variedad de entornos que representan las condiciones que encontrará el robot en el mundo real, incluidos diferentes tipos de clima, horas del día y condiciones de iluminación. Por ejemplo, estos incluían “un antiguo callejón bordeado de casas de té y pequeñas y pintorescas tiendas, cada una de las cuales exhibe adornos y caligrafía tradicionales” y “el sol ilumina un césped algo descuidado salpicado de parches secos”.
Estas descripciones se incorporaron a un sistema que mapea datos de geometría y física en 3D en imágenes generadas por IA, creando videos cortos que mapean la trayectoria que seguirá el robot. El robot utiliza esta información para calcular la altura, el ancho y la profundidad de los objetos por los que tiene que desplazarse: una caja o unas escaleras, por ejemplo.
Los investigadores probaron LucidSim instruyendo a un robot de cuatro patas equipado con una cámara web para que completara varias tareas, incluida la localización de un cono de tráfico o una pelota de fútbol, trepar una caja y subir y bajar escaleras. El robot funcionó consistentemente mejor que cuando ejecutaba un sistema entrenado en simulaciones tradicionales. De 20 pruebas para localizar el cono, LucidSim tuvo una tasa de éxito del 100 %, en comparación con el 70 % de los sistemas entrenados en simulaciones estándar. De manera similar, LucidSim alcanzó el balón de fútbol en otras 20 pruebas el 85 % de las veces, en comparación con solo el 35 % del otro sistema.
Finalmente, cuando el robot estaba ejecutando LucidSim, completó con éxito las 10 pruebas de subir escaleras, en comparación con solo el 50% del otro sistema.

CORTESÍA DEL . CSAIL
Es probable que estos resultados mejoren aún más en el futuro si LucidSim se basa directamente en sofisticados modelos de vídeo generativo en lugar de una combinación de lenguaje, imagen y modelos de física, afirma Phillip Isola, profesor asociado del . que trabajó en la investigación.
El enfoque de los investigadores sobre el uso de la IA generativa es novedoso y allanará el camino para nuevas investigaciones más interesantes, afirma Mahi Shafiullah, estudiante de doctorado de la Universidad de Nueva York que está utilizando modelos de IA para entrenar robots y no trabajó en el proyecto. .