Los auriculares con cancelación de ruido utilizan IA para dejar pasar una sola voz

Esa complejidad es un problema cuando los modelos de IA necesitan funcionar en tiempo real en un par de auriculares con potencia informática y duración de batería limitadas. Para cumplir con tales limitaciones, las redes neuronales debían ser pequeñas y energéticamente eficientes. Entonces, el equipo utilizó una técnica de compresión de IA llamada destilación de conocimientos. Esto significó tomar un enorme modelo de IA que había sido entrenado con millones de voces (el “maestro”) y hacer que entrenara un modelo mucho más pequeño (el “estudiante”) para imitar su comportamiento y desempeño con el mismo estándar.

Luego se enseñó al estudiante a extraer los patrones vocales de voces específicas del ruido circundante capturado por micrófonos conectados a un par de auriculares con cancelación de ruido disponibles comercialmente.

Para activar el sistema Target Speech Hearing, el usuario mantiene presionado un botón en los auriculares durante varios segundos mientras mira a la persona en la que se enfoca. Durante este proceso de “inscripción”, el sistema captura una muestra de audio de ambos auriculares y utiliza esta grabación para extraer las características vocales del hablante, incluso cuando hay otros hablantes y ruidos en las cercanías.

Estas características se introducen en una segunda red neuronal que se ejecuta en una computadora con microcontrolador conectada a los auriculares mediante un cable USB. Esta red funciona de forma continua, manteniendo la voz elegida separada de la de otras personas y reproduciéndola para el oyente. Una vez que el sistema se ha fijado en un altavoz, sigue dando prioridad a la voz de esa persona, incluso si el usuario se da la vuelta. Cuantos más datos de entrenamiento obtenga el sistema al centrarse en la voz de un hablante, mejor será su capacidad para aislarlo.

Por ahora, el sistema sólo puede inscribir con éxito a un hablante específico cuya voz sea la única fuerte presente, pero El equipo pretende que funcione incluso cuando la voz más fuerte en una dirección particular no sea la del hablante objetivo.

Identificar una sola voz en un ambiente ruidoso es muy difícil, dice Sefik Emre Eskimez, investigador senior de Microsoft que trabaja en el habla y la inteligencia artificial, pero que no participó en la investigación. “Sé que las empresas quieren hacer esto”, dice. “Si pueden lograrlo, se abrirán muchas aplicaciones, especialmente en un escenario de reunión”.

Si bien la investigación sobre la separación del habla tiende a ser más teórica que práctica, este trabajo tiene claras aplicaciones en el mundo real, dice Samuele Cornell, investigador del Instituto de Tecnologías del Lenguaje de la Universidad Carnegie Mellon, que no trabajó en la investigación. “Creo que es un paso en la dirección correcta”, dice Cornell. “Es un soplo de aire fresco”.

Leave a Reply Cancel reply