Google detalla el trabajo de IA detrás del reconocimiento de voz más inclusivo del Proyecto Euphonia - TechCrunch

Como parte de nuevos esfuerzos hacia la accesibilidad, Anunció Google Proyecto Euphonia en E / S en mayo: un intento de hacer que el reconocimiento de voz sea capaz de comprender a las personas con impedimentos o voces que no son estándar. La empresa acaba de publicó una publicación y su documento explica parte del trabajo de IA que permite la nueva capacidad.

El problema es simple de observar: las voces que hablan las personas con deficiencias motoras, como las producidas por enfermedades degenerativas como la esclerosis lateral amiotrófica (ELA), simplemente no son comprendidas por los sistemas existentes de procesamiento del lenguaje natural.

Puedes verlo en acción en el siguiente video del científico investigador de Google Dimitri Kanevsky, quien tiene problemas para hablar, intentando interactuar con uno de los productos de la compañía (y eventualmente hacerlo con la ayuda de trabajo relacionado Parrotron

El equipo de investigación lo describe de la siguiente manera:

Los sistemas ASR (reconocimiento automático de voz) se entrenan con mayor frecuencia a partir del habla "típica", lo que significa que los grupos subrepresentados, como aquellos con impedimentos del habla o acentos intensos, no experimentan el mismo grado de utilidad.

… Los modelos ASR actuales y de última generación pueden generar altas tasas de error de palabras (WER) para los hablantes con una discapacidad auditiva moderada de ALS, lo que impide efectivamente el acceso a tecnologías dependientes de ASR.

Es notable que al menos en parte culpen al conjunto de entrenamiento. Ese es uno de esos sesgos implícitos que encontramos en los modelos de IA que pueden conducir a altas tasas de error en otros lugares, como el reconocimiento facial o incluso darse cuenta de que una persona está presente. Si bien no incluir a los grupos principales, como las personas con piel oscura, no es un error comparable en escala a la construcción de un sistema que no incluya a las personas con problemas de habla, ambos pueden abordarse con datos de fuente más inclusivos.

Para los investigadores de Google, eso significaba recopilar docenas de horas de audio hablado de personas con ELA. Como es de esperar, cada persona se ve afectada de manera diferente por su condición, por lo que acomodar los efectos de la enfermedad no es el mismo proceso que acomodar, por ejemplo, un acento simplemente poco común.

Se usó un modelo estándar de reconocimiento de voz como línea de base, luego se ajustó de varias maneras experimentales, entrenándolo en el nuevo audio. Esto solo redujo drásticamente las tasas de error de palabras, y lo hizo con un cambio relativamente pequeño en el modelo original, lo que significa que hay menos necesidad de cálculos pesados cuando se ajusta a una nueva voz.

Los investigadores encontraron que el modelo, cuando todavía está confundido por un fonema dado (que es un sonido de voz individual como una "e" o "f"), tiene dos tipos de errores. Primero, está el hecho de que no reconoce el fonema para lo que se pretendía y, por lo tanto, no reconoce la palabra. Y segundo, el modelo tiene que adivinar qué fonema tiene el altavoz. hizo pretenden, y podrían elegir la incorrecta en casos en que dos o más palabras suenen más o menos similares.

El segundo error en particular es uno que puede manejarse de manera inteligente. Tal vez diga: "Voy a volver a entrar en la casa" y el sistema no reconoce la "b" en la parte de atrás y la "h" en la casa; No es igualmente probable que quisieras decir: "Voy a clavarme con el ratón". El sistema de inteligencia artificial puede usar lo que sabe del lenguaje humano, y de tu propia voz o el contexto en el que estás hablando. para llenar los vacíos de manera inteligente.

Pero eso queda para futuras investigaciones. Por ahora puedes leer el trabajo del equipo hasta ahora en el documento "Personalización de ASR para discurso disartrico y acentuado con datos limitados" debido a ser presentado en el Inter-discurso conferencia en Austria el próximo mes.

LO MÁS LEÍDO

Google detalla el trabajo de IA detrás del reconocimiento de voz más inclusivo del Proyecto Euphonia – TechCrunch

Leave a Reply Cancel reply