Las brechas lingüísticas en línea de EE. UU. Son un problema urgente para los estadounidenses de origen asiático

Chen dice que si bien las políticas de moderación de contenido de Facebook, Twitter y otros lograron filtrar parte de la desinformación más obvia en inglés, el sistema a menudo pierde dicho contenido cuando está en otros idiomas. En cambio, ese trabajo tuvo que ser realizado por voluntarios como su equipo, que buscaban desinformación y estaban capacitados para desactivarla y minimizar su propagación. “Esos mecanismos destinados a captar ciertas palabras y cosas no necesariamente captan esa desinformación y desinformación cuando está en un idioma diferente”, dice ella.

Los servicios y tecnologías de traducción de Google, como Translatotron y auriculares de traducción en tiempo real utilizar inteligencia artificial para convertir entre idiomas. Pero Xiong considera que estas herramientas son inadecuadas para el hmong, un lenguaje profundamente complejo donde el contexto es increíblemente importante. “Creo que nos hemos vuelto realmente complacientes y dependientes de sistemas avanzados como Google”, dice. “Afirman ser ‘accesibles al lenguaje’, y luego lo leo y dice algo totalmente diferente”.

(Un portavoz de Google admitió que los idiomas más pequeños “plantean una tarea de traducción más difícil”, pero dijo que la empresa ha “invertido en investigación que beneficia particularmente a las traducciones de idiomas de bajos recursos”, utilizando el aprendizaje automático y los comentarios de la comunidad).

Toda la calle abajo

Los desafíos del lenguaje en línea van más allá de los EE. UU. Y bajan, literalmente, al código subyacente. Yudhanjaya Wijeratne es investigadora y científica de datos en el grupo de expertos de Sri Lanka LIRNEasia. En 2018, comenzó a rastrear redes de bots cuya actividad en las redes sociales alentaba la violencia contra los musulmanes: en febrero y marzo de ese año, una serie de disturbios de budistas cingaleses tuvieron como objetivo musulmanes y mezquitas en las ciudades de Ampara y Kandy. Su equipo documentado “La lógica de caza” de los bots, catalogó cientos de miles de publicaciones en redes sociales cingalesas y llevó los hallazgos a Twitter y Facebook. “Decían todo tipo de cosas bonitas y bien intencionadas, básicamente declaraciones enlatadas”, dice. (En un comunicado, Twitter dice que usa revisión humana y sistemas automatizados para “aplicar nuestras reglas de manera imparcial para todas las personas en el servicio, independientemente de su origen, ideología o ubicación en el espectro político”).

Cuando fue contactado por ., un portavoz de Facebook dijo que la compañía encargó una evaluación independiente de derechos humanos del papel de la plataforma en la violencia en Sri Lanka: que se publicó en mayo de 2020e hizo cambios a raíz de los ataques, incluida la contratación de docenas de moderadores de contenido que hablan cingalés y tamil. “Implementamos tecnología proactiva de detección de discursos de odio en cingalés para ayudarnos a identificar de manera más rápida y eficaz el contenido potencialmente infractor”, dijeron.

“Lo que puedo hacer con tres líneas de código en Python en inglés me tomó literalmente dos años de mirar 28 millones de palabras en cingalés”

Yudhanjaya Wijeratne, LIRNEasia

Cuando el comportamiento del bot continuó, Wijeratne se mostró escéptico ante los lugares comunes. Decidió examinar las bibliotecas de códigos y las herramientas de software que usaban las empresas, y descubrió que aún no se habían creado los mecanismos para monitorear el discurso de odio en la mayoría de los idiomas distintos del inglés.

“Gran parte de la investigación, de hecho, para muchos idiomas como el nuestro simplemente no se ha realizado todavía”, dice Wijeratne. “Lo que puedo hacer con tres líneas de código en Python en inglés me tomó literalmente dos años de mirar 28 millones de palabras en cingalés para construir los corpus principales, construir las herramientas principales y luego llevar las cosas a ese nivel en el que pude potencialmente hacer ese nivel de análisis de texto “.

Después de que atacantes suicidas atacaran iglesias en Colombo, la capital de Sri Lanka, en abril de 2019, Wijeratne construyó una herramienta para analizar el discurso de odio y la desinformación en cingalés y tamil. El sistema, llamado Perro guardián, es una aplicación móvil gratuita que agrega noticias y adjunta advertencias a historias falsas. Las advertencias provienen de voluntarios capacitados en verificación de datos.

Wijeratne destaca que este trabajo va mucho más allá de la traducción.

“Muchos de los algoritmos que damos por sentado que a menudo se citan en la investigación, en particular en el procesamiento del lenguaje natural, muestran excelentes resultados para el inglés”, dice. “Y, sin embargo, muchos algoritmos idénticos, incluso utilizados en idiomas que tienen solo unos pocos grados de diferencia, ya sean del alemán occidental o del árbol romance de los idiomas, pueden arrojar resultados completamente diferentes”.

El procesamiento del lenguaje natural es la base de los sistemas automatizados de moderación de contenido. Wijeratne publicó un artículo en 2019 que examinó las discrepancias entre su precisión en diferentes idiomas. Argumenta que cuantos más recursos computacionales existen para un lenguaje, como conjuntos de datos y páginas web, mejor pueden funcionar los algoritmos. Los idiomas de los países o comunidades más pobres están en desventaja.

“Si está construyendo, digamos, el Empire State Building para inglés, tiene los planos. Tienes los materiales ”, dice. “Tienes todo a mano y todo lo que tienes que hacer es juntar estas cosas. Para todos los demás idiomas, no tiene los planos.

“No tienes idea de dónde va a salir el hormigón. No tienes acero y tampoco tienes trabajadores. Así que estarás sentado golpeando un ladrillo a la vez y esperando que tal vez tu nieto o tu nieta completen el proyecto “.

Problemas profundamente arraigados

El movimiento para proporcionar esos planos se conoce como justicia lingüística y no es nuevo. La Asociación de Abogados de Estados Unidos describe la justicia del lenguaje como un “marco” que preserva los derechos de las personas “a comunicarse, comprender y ser entendidos en el idioma en el que prefieren y se sienten más articulados y poderosos”.

Toda la calle abajo

Problemas profundamente arraigados

Leave a Reply Cancel reply