La red neuronal entrenada en ‘Friends’ puede reconocer el sarcasmo

La red neuronal entrenada en ‘Friends’ puede reconocer el sarcasmo

En 2019, cuando la IA estaba a salvo en el ámbito de la ciencia ficción y aún faltaban varios meses para el lanzamiento del GPT-2, un grupo de investigadores presentó un papel a ese verano reunión anual de la Asociación de Lingüística Computacional. El artículo “Hacia la detección multimodal del sarcasmo (un Obviamente Perfect Paper)” describió una propuesta para una base de datos de ejemplos anotados de sarcasmo en el habla, extraídos de programas de televisión populares, incluido Amigos y La teoría del Big Bang. La idea era que la base de datos, denominada “Conjunto de datos de detección de sarcasmo multimodal” o “MUStARD”, para abreviar, pudiera usarse como recurso para la investigación sobre la detección del sarcasmo en la conversación.

La naturaleza del sarcasmo significa que puede ser difícil identificarlo simplemente mirando las palabras: una declaración sarcástica a menudo implicará decir una cosa pero querer decir otra. Esto requiere que el significado real de la afirmación se derive de otras señales más sutiles. El artículo original de MUStARD identifica varios ejemplos de tales señales: “un cambio de tono, énfasis excesivo [on] una palabra, una sílaba larga o una cara seria”, y sostiene que ese análisis “multimodal” es esencial para analizar correctamente el sarcasmo.

En los cinco años transcurridos, la idea de interacciones entre humanos y computadoras en lenguaje natural ha pasado de dispositivo de trama fílmica a los acontecimientos cotidianos con una velocidad vertiginosa. Sin embargo, el sarcasmo sigue siendo difícil de detectar, y dos sesiones de una reunión conjunta de la Sociedad Estadounidense de Acústica y la Asociación Canadiense de Acústica que tuvo lugar esta semana en Ottawa se dedicaron a formas de mejorar la detección del sarcasmo.

El primero de ellos, de un equipo de la Universidad de Groningen, describió una red neuronal que se basa en el enfoque expuesto en el artículo de 2019. La red está entrenada con datos de MUStARD, y El guardián informes que ha podido detectar ejemplos de sarcasmo no etiquetados en los programas en la base de datos el 75% de las veces. A breve resumen de la investigación publicado en el sitio de la reunión explica cómo funciona el modelo: las palabras de los datos de audio se extraen con reconocimiento automático de voz y luego se les asigna un emoticón para indicar su sentimiento subyacente. Luego, este emoticón se asigna a señales multimodales, como el tono de voz o un contexto conversacional más amplio. Los autores sugieren que su enfoque “aprovecha las fortalezas de cada modalidad… [and] compensar[s] para las limitaciones en la percepción del tono al proporcionar señales complementarias esenciales para una interpretación precisa del sarcasmo”.

La percepción del tono es uno de los métodos más establecidos para buscar sarcasmo en el habla, y la otra presentación en la reunión para abordar la detección del sarcasmo se centró principalmente en los métodos de análisis de la percepción del tono. En particular, se centró en los cambios en la F0, o frecuencia fundamental, que es la frecuencia más baja de la voz de una persona determinada. Ciertos cambios en esta frecuencia. a menudo caracterizan el sarcasmo en inglésy identificando estos cambios Por tanto, ha sido una forma razonablemente fiable de identificar una frase sarcástica.

La presentación, realizada por un equipo de la Universidad de Michigan, analizó en detalle los cambios que tienen lugar en el F0 (denominados “contornos F0”) cuando una persona hace un comentario sarcástico. El equipo identificó ciertas firmas acústicas (“movimiento” y “espacio”) que se repetían en los contornos de muchos sujetos, y en un análisis más profundo del habla de nueve sujetos, encontró que “el movimiento y el espacio por sí solos pueden capturar algunas de las diferencias entre sincero y sarcástico. grupos de contornos para algunos altavoces”. El resumen de la presentación advierte, sin embargo, que si bien “cualquier orador produce contornos característicos de sarcasmo o sinceridad… estos contornos difieren según el hablante”.

Esto muestra lo difícil que puede ser identificar el sarcasmo basándose únicamente en cualquier aspecto de la conversación. Esto es tan cierto para las personas como para las computadoras, y si bien la cobertura de estas sesiones se ha centrado en gran medida en la posibilidad de incorporar la detección de sarcasmo en grandes chatbots basados ​​en modelos de lenguaje como ChatGPT, también existen beneficios potenciales para personas reales. El equipo de la Universidad de Groningen sugiere que su trabajo podría ser útil “para [people] con desafíos de procesamiento auditivo”—especialmente aquellos con “trastornos que afectan la percepción del tono o aquellos que carecen de señales auditivas contextuales”—y, más en general, para “el avance de las aplicaciones de la tecnología del habla”.