
Los nuevos modelos de IA de Meta pueden reconocer y producir voz en más de 1000 idiomas

Hay alrededor de 7,000 idiomas en el mundo, pero los modelos de reconocimiento de voz existentes cubren solo alrededor de 100 de ellos de manera integral. Esto se debe a que este tipo de modelos tienden a requerir grandes cantidades de datos de entrenamiento etiquetados, que están disponibles solo para una pequeña cantidad de idiomas, incluidos inglés, español y chino.
Los investigadores de Meta solucionaron este problema al volver a entrenar un modelo de IA existente desarrollado por la compañía en 2020 que puede aprender patrones de voz a partir de audio sin requerir grandes cantidades de datos etiquetados, como transcripciones.
Lo entrenaron en dos nuevos conjuntos de datos: uno que contiene grabaciones de audio de la Biblia del Nuevo Testamento y su texto correspondiente tomado de Internet en 1107 idiomas, y otro que contiene grabaciones de audio del Nuevo Testamento sin etiquetar en 3809 idiomas. El equipo procesó el audio de voz y los datos de texto para mejorar su calidad antes de ejecutar un algoritmo diseñado para alinear las grabaciones de audio con el texto que las acompaña. Luego repitieron este proceso con un segundo algoritmo entrenado con los datos recién alineados. Con este método, los investigadores pudieron enseñar al algoritmo a aprender un nuevo idioma más fácilmente, incluso sin el texto que lo acompaña.
“Podemos usar lo que aprendió ese modelo para construir rápidamente sistemas de voz con muy, muy pocos datos”, dice Michael Auli, científico investigador de Meta que trabajó en el proyecto.
“Para el inglés, tenemos montones y montones de buenos conjuntos de datos, y los tenemos para algunos idiomas más, pero simplemente no tenemos eso para los idiomas que hablan, digamos, 1000 personas”.
Los investigadores dicen que sus modelos pueden conversar en más de 1000 idiomas, pero reconocen más de 4000.
Compararon los modelos con los de compañías rivales, incluida OpenAI Whisper, y afirmaron que el suyo tenía la mitad de la tasa de error, a pesar de cubrir 11 veces más idiomas.
Sin embargo, el equipo advierte que la modelo aún corre el riesgo de transcribir incorrectamente ciertas palabras o frases, lo que podría resultar en etiquetas inexactas o potencialmente ofensivas. También reconocen que sus modelos de reconocimiento de voz generaron más palabras sesgadas que otros modelos, aunque solo un 0,7 % más.
Si bien el alcance de la investigación es impresionante, el uso de textos religiosos para entrenar modelos de IA puede ser controvertido, dice Chris Emezue, investigador de Masakhane, una organización que trabaja en el procesamiento del lenguaje natural para idiomas africanos, que no participó en el proyecto. .
“La Biblia tiene muchos prejuicios y tergiversaciones”, dice.