Microsoft presenta un modelo de IA que comprende el contenido de la imagen y resuelve acertijos visuales

Una imagen generada por IA de un cerebro electrónico con un globo ocular.
Agrandar / Una imagen generada por IA de un cerebro electrónico con un globo ocular.

Ars Technica

El lunes, investigadores de Microsoft introducido Kosmos-1, un modelo multimodal que, según se informa, puede analizar imágenes en busca de contenido, resolver acertijos visuales, realizar reconocimiento de texto visual, aprobar pruebas de coeficiente intelectual visual y comprender instrucciones en lenguaje natural. Los investigadores creen que la IA multimodal, que integra diferentes modos de entrada, como texto, audio, imágenes y video, es un paso clave para construir una inteligencia artificial general (AGI) que pueda realizar tareas generales al nivel de un ser humano.

Al ser una parte básica de la inteligencia, multimodal la percepción es una necesidad para lograr artificial inteligencia generalen términos de adquisición de conocimientos y conexión a tierra con el mundo real”, escriben los investigadores en su artículo académico“El lenguaje no es todo lo que necesita: alinear la percepción con los modelos de lenguaje”.

Los ejemplos visuales del documento Kosmos-1 muestran al modelo analizando imágenes y respondiendo preguntas sobre ellas, ley endo el texto de una imagen, escribiendo subtítulos para las imágenes y realizando una prueba de coeficiente intelectual visual con una precisión del 22 al 26 por ciento (más sobre eso a continuación).

Mientras los medios de comunicación zumban con noticias sobre modelos de lenguaje extenso (LLM), algunos expertos en IA señalan a la IA multimodal como un camino potencial hacia la inteligencia artificial general, una tecnología hipotética que aparentemente podrá reemplazar a los humanos en cualquier tarea intelectual (y cualquier trabajo intelectual). AGI es el objetivo declarado de OpenAI, un socio comercial clave de Microsoft en el espacio de IA.

En este caso, Kosmos-1 parece ser un proyecto puro de Microsoft sin la participación de OpenAI. Los investigadores llaman a su creación un “modelo de lenguaje grande multimodal” (MLLM) porque sus raíces se encuentran en el procesamiento del lenguaje natural como un LLM de solo texto, como ChatGPT. Y se nota: para que Kosmos-1 acepte la entrada de imágenes, los investigadores primero deben traducir la imagen a una serie especial de tokens (básicamente texto) que el LLM pueda entender. El Kosmos-1 papel describe esto con más detalle:

Para el formato de entrada, aplanamos la entrada como una secuencia decorada con tokens especiales. Específicamente, usamos y para indicar el inicio y el final de la secuencia. Los tokens especiales y

indican el comienzo y el final de las incrustaciones de imágenes codificadas. Por ejemplo, “ documento ” es una entrada de texto, y “ párrafo Incrustación de imágenes párrafo ” es una entrada de texto de imagen intercalada.

… Se utiliza un módulo de incrustación para codificar tokens de texto y otras modalidades de entrada en vectores. Luego, las incrustaciones se introducen en el decodificador. Para los tokens de entrada, usamos una tabla de búsqueda para mapearlos en incrustaciones. Para las modalidades de señales continuas (p. ej., imagen y audio), también es factible representar las entradas como código discreto y luego considerarlas como “lenguas extranjeras”.

Microsoft entrenó Kosmos-1 utilizando datos de la web, incluidos extractos de La pila (un recurso de texto en inglés de 800 GB) y Rastreo común. Después del entrenamiento, evaluaron las habilidades de Kosmos-1 en varias pruebas, incluida la comprensión del idioma, la generación del idioma, la clasificación de texto sin reconocimiento óptico de caracteres, los subtítulos de imágenes, la respuesta visual a preguntas, la respuesta a preguntas de páginas web y la clasificación de imágenes sin disparo. En muchas de estas pruebas, Kosmos-1 superó a los modelos actuales de última generación, según Microsoft.

Un ejemplo de la prueba Raven IQ que Kosmos-1 se encargó de resolver.
Agrandar / Un ejemplo de la prueba Raven IQ que Kosmos-1 se encargó de resolver.

microsoft

De particular interés es el desempeño de Kosmos-1 en Razonamiento progresivo de Raven, que mide el coeficiente intelectual visual al presentar una secuencia de formas y pedirle al examinado que complete la secuencia. Para probar Kosmos-1, los investigadores completaron una prueba, una a la vez, con cada opción completada y preguntaron si la respuesta era correcta. Kosmos-1 solo pudo responder correctamente una pregunta en la prueba Raven el 22 por ciento de las veces (26 por ciento con ajuste fino). Esto de ninguna manera es fácil, y los errores en la metodología podrían haber afectado los resultados, pero Kosmos-1 superó la probabilidad aleatoria (17 por ciento) en la prueba Raven IQ.

Aún así, aunque Kosmos-1 representa los primeros pasos en el dominio multimodal (un enfoque también siendo perseguido por otros), es fácil imaginar que las futuras optimizaciones podrían traer resultados aún más significativos, permitiendo que los modelos de IA perciban cualquier forma de medios y actúen sobre ellos, lo que mejorará en gran medida las habilidades de los asistentes artificiales. En el futuro, los investigadores dicen que les gustaría ampliar Kosmos-1 en tamaño de modelo e integrar también la capacidad de voz.

Microsoft dice que planea poner Kosmos-1 a disposición de los desarrolladores, aunque el página de GitHub el artículo que cita no tiene un código obvio específico de Kosmos tras la publicación de esta historia.

Leave a Reply

Your email address will not be published. Required fields are marked *