Cómo un bebé con una cámara en la cabeza enseñó a la IA a aprender palabras

Cómo un bebé con una cámara en la cabeza enseñó a la IA a aprender palabras

Los investigadores de inteligencia artificial pudieron crear con éxito un modelo de aprendizaje automático capaz de aprender palabras utilizando imágenes capturadas por un niño pequeño que llevaba una cámara frontal. Los resultados, publicado esta semana en Cienciapodría arrojar nueva luz sobre las formas en que los niños aprenden el lenguaje y potencialmente informar los esfuerzos de los investigadores para construir futuros modelos de aprendizaje automático que aprendan más como los humanos.

Investigaciones anteriores estiman que los niños tienden a comenzar Adquiriendo sus primeras palabras alrededor de los 6 a 9 meses de edad.. Al llegar a su segundo cumpleaños, el niño promedio posee alrededor de 300 palabras en su conjunto de herramientas de vocabulario. Pero la mecánica real que sustenta exactamente cómo los niños llegan a asociar el significado con las palabras sigue sin estar clara y es un tema de debate científico. Investigadores del Centro de Ciencia de Datos de la Universidad de Nueva York intentaron explorar más esta área gris creando un modelo de IA que intentaba aprender de la misma manera que lo hace un niño.

Para entrenar el modelo, los investigadores se basaron en más de 60 horas de grabaciones de video y audio extraídas de una cámara de luz atada a un niño llamado Sam. El niño usaba la cámara de vez en cuando desde que tenía seis meses y hasta después de su segundo cumpleaños. Durante esos 19 meses, la cámara recopiló más de 600.000 fotogramas de vídeo conectados a más de 37.500 expresiones transcritas de personas cercanas. La charla de fondo y los fotogramas de vídeo tomados de la cámara frontal permiten vislumbrar la experiencia de un niño en desarrollo mientras come, juega y, en general, experimenta el mundo que lo rodea.

Videoclip corto capturado con una cámara montada en la cabeza. Crédito: Video cortesía del padre de Sam.
.

Armados con los ojos y oídos de Sam, los investigadores crearon un modelo de red neuronal para intentar dar sentido a lo que Sam estaba viendo y escuchando. El modelo, que tenía un módulo que analizaba fotogramas individuales tomados de la cámara y otro se centraba en el habla transcrita directamente hacia Sam, fue autosupervisado, lo que significa que no utilizó etiquetado de datos externos para identificar objetos. Como un niño, el modelo aprendió asociando palabras con objetos y elementos visuales particulares cuando coincidían al mismo tiempo.

Procedimiento de ensayo en modelos y niños.  Crédito: Wai Keen Vong
Procedimiento de ensayo en modelos y niños. Crédito: Wai Keen Vong

“Al utilizar modelos de IA para estudiar el problema real del aprendizaje de idiomas que enfrentan los niños, podemos abordar los debates clásicos sobre qué ingredientes necesitan los niños para aprender palabras, ya sea que necesiten sesgos específicos del idioma, conocimiento innato o simplemente aprendizaje asociativo para comenzar. ”, dijo en un comunicado el coautor del artículo y profesor del Centro de Ciencia de Datos de la Universidad de Nueva York, Brenden Lake. “Parece que podemos conseguir más con solo aprender de lo que comúnmente se piensa”.

Los investigadores probaron el modelo de la misma manera que los científicos evalúan a los niños. Los investigadores presentaron al modelo cuatro imágenes extraídas del conjunto de entrenamiento y le pidieron que eligiera cuál coincidía con una palabra determinada como “pelota”, “cuna” o “árbol”. El modelo tuvo éxito el 61,6% de las veces. El modelo entrenado con cámara para bebés incluso se acercó a niveles de precisión similares a los de un par de modelos de IA separados que fueron entrenados con muchas más entradas de lenguaje. Aún más impresionante, el modelo pudo identificar correctamente algunas imágenes que no estaban incluidas en el conjunto de datos de la cámara frontal de Sam, lo que sugiere que pudo aprender de los datos con los que fue entrenado y usarlos para realizar observaciones más generalizadas.

“Estos hallazgos sugieren que este aspecto del aprendizaje de palabras es factible a partir del tipo de datos naturalistas que reciben los niños mientras utilizan mecanismos de aprendizaje relativamente genéricos, como los que se encuentran en las redes neuronales”, dijo Lake.

En otras palabras, la capacidad del modelo de IA para identificar consistentemente objetos usando solo datos de la cámara frontal muestra cómo el aprendizaje representativo, o simplemente asociar imágenes con palabras concurrentes, parece ser suficiente para que los niños aprendan y adquieran vocabulario.

Los hallazgos sugieren un método alternativo para entrenar la IA

De cara al futuro, los hallazgos de los investigadores de la Universidad de Nueva York podrían resultar valiosos para los futuros desarrolladores de IA interesados ​​en crear modelos de IA que aprendan de manera similar a los humanos. La industria de la IA y los informáticos han utilizado durante mucho tiempo El pensamiento humano y las vías neuronales como inspiración para construir sistemas de IA..

Recientemente, grandes modelos de lenguaje como los modelos GPT de OpenAI o Bard de Google han demostrado ser capaces de escribir ensayos útiles, generar código y estropear datos periódicamente gracias a un período de entrenamiento intensivo en el que los modelos inyectan billones de parámetros de datos extraídos de conjuntos de datos gigantescos. Los hallazgos de la Universidad de Nueva York, sin embargo, sugieren que podría ser posible un método alternativo de adquisición de palabras. En lugar de depender de montones de entradas potencialmente protegidas por derechos de autor o sesgadas, un modelo de IA que imite la forma en que los humanos aprenden cuando nos arrastramos y tropezamos por el mundo podría ofrecer un camino alternativo hacia el reconocimiento del lenguaje.

“Me sorprendió cuánto pueden aprender los sistemas de inteligencia artificial actuales cuando se exponen a una cantidad mínima de datos del tipo que un niño realmente recibe cuando aprende un idioma”, dijo Lake.

Leave a Reply

Your email address will not be published. Required fields are marked *