La aplicación Live Transcribe de Google cambia la forma en que los sordos se comunican


Cuando se trata de Inteligencia Artificial (IA), nadie lo hace mejor que la gente de Google: desde la detección de inundaciones en la India hasta la preservación de los antiguos guiones japoneses, el gigante tecnológico estadounidense ha aprovechado el poder de la IA para resolver algunos de los más grandes del mundo problemas de manera más eficiente que el cerebro humano.

Y aunque su uso podría no estar tan extendido como algunas de las otras iniciativas de Google, Transcripción en vivo Sin embargo, es una herramienta invaluable que ayuda a las personas sordas o con problemas de audición a comunicarse con el mundo. Disponible en más de 70 idiomas y dialectos, esta aplicación detecta el habla y los convierte en subtítulos en tiempo real, permitiendo que las personas con discapacidad auditiva participen en conversaciones solo con sus teléfonos.

Y como suele ser el caso con las innovaciones tecnológicas, teníamos algunas preguntas: ¿por qué algo tan aparentemente simple tardó tanto en ser lanzado? ¿Cómo se recopilan los datos que usa la IA? ¿La transcripción alguna vez será 100% precisa? Para averiguarlo, nos sentamos con Sagar Savla y Julie Cattiau, dos gerentes de producto de Google AI, y esto es lo que aprendimos.

VP: El reconocimiento automático de voz (ASR) ha existido desde hace algún tiempo, entonces, ¿por qué Google solo está lanzando Live Transcribe ahora? ¿Fue tan simple como tomar la tecnología ASR y ponerla en una aplicación, o tuviste que hacer algo diferente?

SS: Live Transcribe se basó en décadas de investigación para llevar los subtítulos a un nivel en el que valiera la pena usarlo. Si utilizó la misma tecnología hace 10 años, no sería útil porque la precisión sería tan poco confiable que una persona sorda podría comenzar a depender de otras señales de comunicación en lugar de usarla.

Pudimos alcanzar este nivel de manera única en Google porque tuvimos décadas de investigación en reconocimiento de voz recopiladas de otros productos como Google Voice Search y Google Assistant. Esto esencialmente nos facilitó el desafío más difícil, tanto en términos de tener acceso a los expertos como de tener listos los modelos.

VP: Entonces, ¿cómo recopila sus datos de investigación? ¿Se hace a escala pública o privada?

SS: Ambos. Empleamos contratistas para que ingresen al laboratorio y graben audio limpio y profesional, pero también buscamos datos de forma colectiva. En realidad, existe una aplicación llamada Google Crowdsource, que permite a las personas realizar anotaciones y enviar sus propios datos. a veces es voz, a veces son fotos, a veces es texto que entra en las funciones del Traductor de Google.

Diría que hemos realizado un esfuerzo de recopilación de datos en diferentes países durante los últimos diez años. Gujarat, por ejemplo, fue uno de los idiomas que se lanzó recientemente, pero el esfuerzo de recopilación de datos en realidad comenzó hace cuatro años. También recopilamos datos de varias geografías, porque puede haber diferentes acentos dentro de un solo país.

Sagar Savla (izquierda) y Julie Cattiau (derecha) / Crédito de la imagen: Vulcan Post

VP: ¿Debería la gente preocuparse por la privacidad?

SS: La recopilación de datos de Google es un esfuerzo dedicado y concertado. Cuando nos acercamos a alguien, primero les decimos qué se va a recolectar, para qué se va a usar, quién podrá verlo, cuánto tiempo lo vamos a almacenar y las aplicaciones que pueden salir de él. . Si están completamente de acuerdo con estas condiciones, firman un acuerdo que dice "sí, estoy de acuerdo con que Google use este aspecto de mis datos", y ahí es cuando los traemos para recopilar esos datos.

Esa política existe no solo para las grabaciones de voz, sino también para todos nuestros esfuerzos de recopilación de datos. A veces recopilamos fotos para eliminar los prejuicios de nuestros modelos, y cuando salimos a preguntar si las personas están dispuestas a donar sus datos, les decimos para qué se utilizarán también.

También usamos esta información para devolver, de alguna manera. Muchos de nuestros modelos son de código abierto, y la comunidad académica a veces los utiliza para comparar nuevas investigaciones. Liberamos por completo toda esa capacitación sin dar ninguna identificación.

Transcribe en vivo en acción. / Crédito GIF: Google

VP: D¿Crees que Live Transcribe alcanzará el 100% de precisión?

JC: Creo que será realmente difícil alcanzar el 100% de precisión. Incluso si habla inglés nativo, seguirá habiendo errores en la tecnología de reconocimiento de voz. La pregunta ahora es "¿cómo podemos cometer la menor cantidad de errores posible para que sea aceptable para las personas?" Todavía estamos en las primeras etapas, pero estamos pensando mucho en eso y pensando dónde trazar la línea. .

SS: Lo que hemos escuchado de nuestros usuarios es que si tuvieran que elegir entre comunicación cero o algo con una precisión del 60%, preferirían tomar esa precisión del 60% y tomar la esencia de la conversación para que aún puedan participar.

Hemos escuchado historias de usuarios que acudieron a citas médicas de emergencia y no pudieron contratar a un intérprete profesional en tan poco tiempo, por lo que utilizaron la aplicación y fue lo suficientemente buena para ellos. El médico probablemente tuvo que repetir algunas cosas dos veces, y tal vez si se suponía que tomaría 60 minutos, tomaría 90 minutos, pero fue lo suficientemente bueno para ellos, ya que no tenían que depender de otra persona.

Todavía estamos muy lejos de alcanzar el 100% de precisión, pero la cuestión es que la comunicación nunca puede ser perfecta. Incluso la comunicación entre humanos es difícil, y aún confiamos en otras señales como el lenguaje corporal. Hace cinco años, la tecnología no era capaz de detectar cosas como silbidos o golpes, y estamos agregando estas pequeñas cosas para aumentar el nivel de inmersión. Tenemos que seguir identificando estos aspectos más pequeños del gran desafío para obtener una mayor precisión.

Sagar explica cómo funciona Live Transcribe en el evento Solve With AI de Google en Japón / Crédito de la imagen: Vulcan Post

VP: D¿Crees que Live Transcribe alcanzará el 100% de precisión?

JC: Creo que será realmente difícil alcanzar el 100% de precisión. Incluso si habla inglés nativo, seguirá habiendo errores en la tecnología de reconocimiento de voz. La pregunta ahora es "¿cómo podemos cometer la menor cantidad de errores posible para que sea aceptable para las personas?" Todavía estamos en las primeras etapas, pero estamos pensando mucho en eso y pensando dónde trazar la línea. .

SS: Lo que hemos escuchado de nuestros usuarios es que si tuvieran que elegir entre comunicación cero o algo con una precisión del 60%, preferirían tomar esa precisión del 60% y tomar la esencia de la conversación para que aún puedan participar.

Hemos escuchado historias de usuarios que acudieron a citas médicas de emergencia y no pudieron contratar a un intérprete profesional en tan poco tiempo, por lo que utilizaron la aplicación y fue lo suficientemente buena para ellos. El médico probablemente tuvo que repetir algunas cosas dos veces, y tal vez si se suponía que tomaría 60 minutos, tomaría 90 minutos, pero fue lo suficientemente bueno para ellos, ya que no tenían que depender de otra persona.

Todavía estamos muy lejos de alcanzar el 100% de precisión, pero la cuestión es que la comunicación nunca puede ser perfecta. Incluso la comunicación entre humanos es difícil, y aún confiamos en otras señales como el lenguaje corporal. Hace cinco años, la tecnología no era capaz de detectar cosas como silbidos o golpes, y estamos agregando estas pequeñas cosas para aumentar el nivel de inmersión. Tenemos que seguir identificando estos aspectos más pequeños del gran desafío para obtener una mayor precisión.

VP: Ahora que Google ha llegado a un punto en el que tienen la confianza suficiente para lanzar algo como Live Transcribe, ¿qué sigue? ¿Cuál es el siguiente paso para simplificar aún más la comunicación?

SS: Los audífonos actualmente tienen dificultades para diferenciar entre ruido y habla. En una conversación en la cena, por ejemplo, varias personas hablarían y el discurso de todos sería confuso, e incluso se escucharía el sonido de la televisión en la habitación de al lado.

¿Podemos entrenar un modelo para descubrir qué sonidos son importantes y amplificar eso? Si hacemos eso, muchas personas con problemas de audición ni siquiera necesitarán usar subtítulos porque obtendrán un discurso claro independientemente del entorno. Creo que es algo que puede ayudar mucho a la comunicación.

JC: Una cosa que personalmente me importa es el habla acentuada, porque cuando uso el Asistente de Google no siempre capta mi acento. Creo que hay mucho trabajo que podríamos hacer para hablar con acento y asegurarnos de que, independientemente de su acento o su forma de hablar, el reconocimiento de voz funcione para usted.

Crédito de la imagen del encabezado: Vulcan Post

LO MÁS LEÍDO

Leave a Reply

Your email address will not be published. Required fields are marked *