Las frases desordenadas muestran que las IA todavía no entienden el lenguaje

Investigadores de la Universidad de Auburn en Alabama y Adobe Research descubrió el defecto cuando intentaron que un sistema de PNL generara explicaciones para su comportamiento, como por qué afirmaba que diferentes oraciones significaban lo mismo. Cuando probaron su enfoque, se dieron cuenta de que mezclar palabras en una oración no cambiaba las explicaciones. “Este es un problema general para todos los modelos de PNL”, dice Anh Nguyen de la Universidad de Auburn, quien dirigió el trabajo.

El equipo examinó varios sistemas de PNL de última generación basados ​​en BERT (un modelo de lenguaje desarrollado por Google que sustenta muchos de los sistemas más recientes, incluido GPT-3). Todos estos sistemas obtienen mejores resultados que los humanos en PEGAMENTO

(Evaluación de comprensión del lenguaje general), un conjunto estándar de tareas diseñadas para evaluar la comprensión del lenguaje, como detectar paráfrasis, juzgar si una oración expresa sentimientos positivos o negativos y razonamiento verbal.

El hombre muerde al perro: Descubrieron que estos sistemas no podían decir cuándo se mezclaban las palabras de una oración, incluso cuando el nuevo orden cambiaba el significado. Por ejemplo, los sistemas detectaron correctamente que las oraciones “¿La marihuana causa cáncer?” y “¿Cómo puede provocar cáncer de pulmón fumar marihuana?” eran paráfrasis. Pero estaban aún más seguros de que “Fumando cáncer, ¿cómo pueden dar los pulmones de marihuana?” y “¿Los pulmones pueden dar fumar marihuana cómo se contrae el cáncer?” también significaba lo mismo. Los sistemas también decidieron que las oraciones con significados opuestos, como “¿La marihuana causa cáncer?” y “¿El cáncer causa la marihuana?”, estaban haciendo la misma pregunta.

La única tarea en la que importaba el orden de las palabras era aquella en la que los modelos tenían que comprobar la estructura gramatical de una oración. De lo contrario, entre el 75% y el 90% de las respuestas de los sistemas probados no cambiaron cuando se barajaron las palabras.

¿Que esta pasando? Los modelos parecen captar algunas palabras clave en una oración, sea cual sea el orden en el que aparezcan. No entienden el lenguaje como nosotros, y GLUE, un punto de referencia muy popular, no mide el verdadero uso del lenguaje. En muchos casos, la tarea en la que se entrena un modelo no lo obliga a preocuparse por el orden de las palabras o la sintaxis en general. En otras palabras, GLUE enseña a los modelos de PNL a saltar por el aro.

Muchos investigadores han comenzado a utilizar un conjunto de pruebas más difíciles llamadas SuperGLUE, pero Nguyen sospecha que tendrá problemas similares.

Este problema también ha sido identificado por Yoshua Bengio y sus colegas, quienes encontraron que reordenar palabras en una conversación a veces no cambiaba las respuestas de los chatbots. Y un equipo de Facebook AI Research encontró ejemplos de esto sucediendo con el chino. El equipo de Nguyen demuestra que el problema está muy extendido.

¿Importa? Depende de la aplicación. Por un lado, una IA que aún entienda cuando cometes un error tipográfico o dices algo confuso, como lo haría otro humano, sería útil. Pero, en general, el orden de las palabras es crucial al descifrar el significado de una oración.

arreglarlo ¿Cómo? La buena noticia es que puede que no sea demasiado difícil de solucionar. Los investigadores encontraron que forzar un modelo a enfocarse en el orden de las palabras, entrenándolo para realizar una tarea en la que el orden de las palabras importaba (como detectar errores gramaticales), también hizo que el modelo se desempeñara mejor en otras tareas. Esto sugiere que ajustar las tareas para las que están entrenados los modelos los mejorará en general.

Los resultados de Nguyen son otro ejemplo de cómo los modelos a menudo no alcanzan lo que la gente cree que es capaz de hacer. Él cree que destaca lo difícil que es hacer IA que entiendan y razonen como los humanos. “Nadie tiene ni idea”, dice.

Leave a Reply

Your email address will not be published. Required fields are marked *