La nueva herramienta de IA de Meta es una parte clave de la visión artificial

En una publicación de blog esta semana, Meta AI anunció el lanzamiento de una nueva herramienta de IA que puede identificar qué píxeles de una imagen pertenecen a qué objeto. El Segmentar cualquier modelo (SAM) realiza una tarea llamada “segmentación” que es fundamental para la visión por computadora, o el proceso que emplean las computadoras y los robots para “ver” y comprender el mundo que los rodea. Además de su nuevo modelo de IA, Meta también pone su conjunto de datos de entrenamiento a disposición de investigadores externos.

En su libro de 1994, El instinto del lenguaje, Steven Pinker escribió: “La lección principal de 35 años de investigación en IA es que los problemas difíciles son fáciles y los problemas fáciles son difíciles”. Llamado La paradoja de Moravec, 30 y tantos años después sigue siendo cierto. Los modelos de lenguaje grande como GPT-4 son capaces de producir texto que se lee como algo escrito por un humano en segundos, mientras que los robots luchan por recoger bloques con formas extrañas, una tarea tan aparentemente básica que los niños la hacen por diversión antes de cumplir un año.

La segmentación cae en esta categoría que parece fácil pero es técnicamente difícil. Puede mirar su escritorio e instantáneamente decir qué es una computadora, qué es un teléfono inteligente, qué es una pila de pap el y qué es un pañuelo de papel arrugado. Pero para las computadoras que procesan una imagen 2D (porque incluso los videos son solo una serie de imágenes 2D), todo es solo un montón de píxeles con valores variables. ¿Dónde acaba el tablero de la mesa y empieza el tejido?

Hoy lanzamos Segment Anything Model (SAM), un paso hacia el primer modelo básico para la segmentación de imágenes.

SAM es capaz de segmentar con un clic cualquier objeto de cualquier foto o video + transferencia de disparo cero a otras tareas de segmentación ➡️ https://t.co/qYUoePrWVi pic.twitter.com/zX4Rxb5Yfo

—Meta IA (@MetaAI) 5 de abril de 2023

El nuevo SAM AI de Meta es un intento de resolver este problema de forma generalizada, en lugar de utilizar un modelo diseñado específicamente para identificar una cosa, como caras o pistolas. Según los investigadores, “SAM ha aprendido una noción general de qué son los objetos y puede generar máscaras para cualquier objeto en cualquier imagen o video, incluso incluyendo objetos y tipos de imágenes que no había encontrado durante el entrenamiento”. En otras palabras, en lugar de solo poder reconocer los objetos que le han enseñado a ver, puede adivinar cuáles son los diferentes objetos. SAM no necesita que le muestren cientos de diferentes pañuelos de papel arrugados para distinguir uno de su escritorio, su sentido general de las cosas es suficiente.

[Related: One of Facebook’s first moves as Meta: Teaching robots to touch and feel]

Puede prueba SAM en tu navegador ahora mismo con tus propias imágenes. SAM puede generar una máscara para cualquier objeto que seleccione haciendo clic en él con el cursor del mouse o dibujando un cuadro a su alrededor. También puede simplemente crear una máscara para cada objeto que detecta en la imagen. Según los investigadores, SAM también puede recibir indicaciones de texto, como: seleccione “gatos”, pero la función aún no se ha lanzado al público. Hizo un buen trabajo al segmentar las imágenes que probamos aquí en ciencia pop.

Meta acaba de lanzar una herramienta que ayuda a las computadoras a 'ver' objetos en imágenes — Una visualización de cómo funciona la herramienta Segmentar cualquier cosa. *Meta IA*

Si bien es fácil encontrar muchas imágenes y videos en línea, los datos de segmentación de alta calidad son mucho más específicos. Para llevar SAM a este punto, Meta tuvo que desarrollar una nueva base de datos de entrenamiento: el Conjunto de datos de máscara Segment Anything 1-Billion (SA-1B). Contiene alrededor de 11 millones de imágenes con licencia y más de 1.100 millones de máscaras de segmentación “de alta calidad y diversidad, y en algunos casos incluso comparables en calidad a las máscaras de los conjuntos de datos anteriores, mucho más pequeños y totalmente anotados manualmente”. Para “democratizar la segmentación”, Meta la está liberando a otros investigadores.

Meta tiene grandes planes para su programa de segmentación. La visión artificial general y confiable sigue siendo un problema sin resolver en inteligencia artificial y robótica, pero tiene mucho potencial. Meta sugiere que SAM algún día podría identificar elementos cotidianos vistos a través de gafas de realidad aumentada (AR). Otro proyecto de la empresa llamado Ego4D también planea abordar un problema similar a través de una lente diferente. Ambos podrían conducir algún día a herramientas que permitan a los usuarios seguir instrucciones junto con una receta paso a paso, o dejar notas virtuales para su pareja en el comedero para perros.

Más plausiblemente, SAM también tendría muchos usos potenciales en la industria y la investigación. Meta propone usarlo para ayudar a los granjeros a contar vacas o a los biólogos rastrear células bajo un microscopio; las posibilidades son infinitas.

Leave a Reply Cancel reply