El aprendizaje automático mejora las capacidades de transcripción del habla árabe

Gracias a los avances en el procesamiento del habla y del lenguaje natural, existe la esperanza de que algún día pueda preguntarle a su asistente virtual cuáles son los mejores ingredientes para ensaladas. Actualmente, es posible pedirle a su dispositivo doméstico que reproduzca música o que lo abra con un comando de voz, que es una función que ya se encuentra en muchos dispositivos.

Si habla marroquí, argelino, egipcio, sudanés o cualquiera de los otros dialectos del idioma árabe, que son inmensamente variados de una región a otra, donde algunos de ellos son mutuamente ininteligibles, la historia es diferente. Si su lengua materna es el árabe, el finlandés, el mongol, el navajo o cualquier otro idioma con un alto nivel de complejidad morfológica, es posible que se sienta excluido.

Estas complejas construcciones intrigaron a Ahmed Ali para encontrar una solución. Es ingeniero principal del grupo de Tecnologías del Lenguaje Árabe en el Instituto de Investigación en Computación de Qatar (QCRI), parte de la Universidad Hamad Bin Khalifa de la Fundación Qatar y fundador de ArabicSpeech, una “comunidad que existe para el beneficio de la ciencia del habla árabe y las tecnologías del habla. . “

Sede de la Fundación Qatar

Ali quedó cautivado por la idea de hablar con automóviles, electrodomésticos y dispositivos hace muchos años mientras estaba en IBM. “¿Podemos construir una máquina capaz de comprender diferentes dialectos: un pediatra egipci o para automatizar una receta, un maestro sirio para ayudar a los niños a obtener las partes básicas de su lección o un chef marroquí que describe la mejor receta de cuscús?” él afirma. Sin embargo, los algoritmos que impulsan esas máquinas no pueden examinar las aproximadamente 30 variedades de árabe, y mucho menos darles sentido. Hoy en día, la mayoría de las herramientas de reconocimiento de voz funcionan solo en inglés y en algunos otros idiomas.

La pandemia de coronavirus ha alimentado aún más una dependencia que ya se está intensificando en las tecnologías de voz, donde la forma en que las tecnologías de procesamiento del lenguaje natural han ayudado a las personas a cumplir con las pautas para quedarse en casa y las medidas de distanciamiento físico. Sin embargo, aunque hemos estado usando comandos de voz para ayudar en las compras de comercio electrónico y administrar nuestros hogares, el futuro depara aún más aplicaciones.

Millones de personas en todo el mundo utilizan cursos masivos abiertos en línea (MOOC) para su acceso abierto y participación ilimitada. El reconocimiento de voz es una de las principales características de los MOOC, donde los estudiantes pueden buscar dentro de áreas específicas en los contenidos hablados de los cursos y habilitar traducciones a través de subtítulos. La tecnología del habla permite digitalizar conferencias para mostrar las palabras habladas como texto en las aulas universitarias.

Ahmed Ali, Universidad Hamad Bin Kahlifa

Según un artículo reciente de la revista Speech Technology, se pronostica que el mercado de reconocimiento de voz y voz alcanzará los 26.800 millones de dólares en 2025, ya que millones de consumidores y empresas de todo el mundo confían en los robots de voz no solo para interactuar con sus electrodomésticos o automóviles, sino también también para mejorar el servicio al cliente, impulsar innovaciones en el cuidado de la salud y mejorar la accesibilidad e inclusión para aquellos con impedimentos auditivos, del habla o motores.

En una encuesta de 2019, Capgemini pronosticó que para 2022, más de dos de cada tres consumidores optarían por asistentes de voz en lugar de visitas a tiendas o sucursales bancarias; una proporción que podría aumentar con razón, dada la vida y el comercio en el hogar y físicamente distanciados que la epidemia ha impuesto al mundo durante más de un año y medio.

No obstante, estos dispositivos no llegan a grandes extensiones del mundo. Para esos 30 tipos de árabe y millones de personas, esa es una oportunidad sustancialmente perdida.

Árabe para máquinas

Los robots de voz de habla inglesa o francesa están lejos de ser perfectos. Sin embargo, enseñar a las máquinas a entender el árabe es particularmente complicado por varias razones. Estos son tres desafíos comúnmente reconocidos:

  1. Falta de diacríticos. Los dialectos árabes son vernáculos, como se habla principalmente. La mayor parte del texto disponible no está acritado, lo que significa que carece de acentos como el agudo (´) o grave (`) que indican los valores de sonido de las letras. Por lo tanto, es difícil determinar dónde van las vocales.
  2. Falta de recursos. Hay una escasez de datos etiquetados para los diferentes dialectos árabes. En conjunto, carecen de reglas ortográficas estandarizadas que dicten cómo escribir un idioma, incluidas las normas o la ortografía, la separación de palabras, los saltos de palabras y el énfasis. Estos recursos son cruciales para entrenar modelos informáticos, y el hecho de que sean muy pocos ha obstaculizado el desarrollo del reconocimiento de voz árabe.
  3. Complejidad morfológica. Los hablantes de árabe se involucran en muchos cambios de código. Por ejemplo, en las áreas colonizadas por los franceses (norte de África, Marruecos, Argelia y Túnez) los dialectos incluyen muchas palabras francesas prestadas. En consecuencia, existe un gran número de las llamadas palabras fuera del vocabulario, que las tecnologías de reconocimiento de voz no pueden comprender porque estas palabras no son árabes.

“Pero el campo se mueve a la velocidad del rayo”, dice Ali. Es un esfuerzo de colaboración entre muchos investigadores para que se mueva aún más rápido. El laboratorio de tecnología del idioma árabe de Ali está liderando el proyecto ArabicSpeech para reunir las traducciones del árabe con los dialectos nativos de cada región. Por ejemplo, los dialectos árabes se pueden dividir en cuatro dialectos regionales: norteafricano, egipcio, golfo y levantino. Sin embargo, dado que los dialectos no cumplen con los límites, esto puede ser tan detallado como un dialecto por ciudad; por ejemplo, un hablante nativo egipcio puede diferenciar entre el dialecto alejandrino de uno de sus conciudadanos de Asuán (una distancia de 1.000 kilómetros en el mapa).

Construyendo un futuro experto en tecnología para todos

En este punto, las máquinas son tan precisas como los transcriptores humanos, gracias en gran parte a los avances en las redes neuronales profundas, un subcampo del aprendizaje automático en inteligencia artificial que se basa en algoritmos inspirados en cómo funciona el cerebro humano, biológica y funcionalmente. Sin embargo, hasta hace poco, el reconocimiento de voz se ha pirateado un poco. La tecnología tiene un historial de depender de diferentes módulos para el modelado acústico, la construcción de léxicos de pronunciación y el modelado del lenguaje; todos los módulos que necesitan formarse por separado. Más recientemente, los investigadores han estado entrenando modelos que convierten características acústicas directamente en transcripciones de texto, optimizando potencialmente todas las partes para la tarea final.

Incluso con estos avances, Ali todavía no puede dar un comando de voz a la mayoría de los dispositivos en su árabe nativo. “Es 2021 y todavía no puedo hablar con muchas máquinas en mi dialecto”, comenta. “Quiero decir, ahora tengo un dispositivo que puede entender mi inglés, pero el reconocimiento automático del habla árabe en varios dialectos aún no ha sucedido”.

Hacer que esto suceda es el foco del trabajo de Ali, que ha culminado con el primer transformador para el reconocimiento de voz árabe y sus dialectos; uno que ha logrado un rendimiento inigualable hasta ahora. Apodada QCRI Advanced Transcription System, la tecnología está siendo utilizada actualmente por las emisoras Al-Jazeera, DW y BBC para transcribir contenido en línea.

Hay algunas razones por las que Ali y su equipo han tenido éxito en la construcción de estos motores de voz en este momento. Principalmente, dice, “Es necesario tener recursos en todos los dialectos. Necesitamos acumular los recursos para luego poder entrenar el modelo “. Los avances en el procesamiento por computadora significan que el aprendizaje automático computacionalmente intensivo ahora ocurre en una unidad de procesamiento de gráficos, que puede procesar y mostrar gráficos complejos rápidamente. Como dice Ali, “Tenemos una gran arquitectura, buenos módulos y tenemos datos que representan la realidad”.

Investigadores de QCRI y Kanari AI crearon recientemente modelos que pueden lograr la paridad humana en las noticias de transmisión árabe. El sistema demuestra el impacto de subtitular los informes diarios de Aljazeera. Si bien la tasa de error humano en inglés (HER) es de aproximadamente 5,6%, la investigación reveló que el HER en árabe es significativamente más alto y puede alcanzar el 10% debido a la complejidad morfológica del idioma y la falta de reglas ortográficas estándar en árabe dialectal. Gracias a los avances recientes en el aprendizaje profundo y la arquitectura de un extremo a otro, el motor de reconocimiento de voz en árabe logra superar a los hablantes nativos en la transmisión de noticias.

Si bien el reconocimiento de voz en árabe estándar moderno parece funcionar bien, los investigadores de QCRI y Kanari AI están absortos en probar los límites del procesamiento dialectal y lograr excelentes resultados. Dado que nadie habla árabe estándar moderno en casa, lo que necesitamos es prestar atención al dialecto para que nuestros asistentes de voz nos entiendan.

Este contenido fue escrito por Instituto de Investigación en Computación de Qatar, Universidad Hamad Bin Khalifa, miembro de la Fundación Qatar. No fue escrito por el personal editorial de ..

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.