El nuevo sistema de IA traduce las señales del cerebro humano en texto con una precisión de hasta el 97%


El mundo solo se está acostumbrando al poder y la sofisticación de los asistentes virtuales creados por compañías como Amazon y Google, que pueden decodificar nuestro discurso hablado. con precisión misteriosa comparado con lo que la tecnología era capaz hace solo unos pocos años.

En verdad, sin embargo, un hito mucho más impresionante y alucinante puede estar a la vuelta de la esquina, haciendo que el reconocimiento de voz parezca un juego de niños: inteligencia artificial (AI) sistemas que pueden traducir nuestros actividad cerebral en texto completamente formado, sin escuchar una sola palabra pronunciada.

No es del todo ciencia ficción. Interfaces cerebro-máquina han evolucionado a pasos agigantados en las últimas décadas, pasando de modelos animales a participantes humanos, y de hecho ya están intentando este tipo de cosas.

Simplemente no con mucha precisión todavía, los investigadores de la Universidad de California en San Francisco explican en un nuevo estudio

.

Para ver si podían mejorar eso, un equipo dirigido por el neurocirujano Edward Chang de UCSF Chang Lab utilizó un nuevo método para decodificar el electrocorticograma: el registro de los impulsos eléctricos que ocurren durante la actividad cortical, recogidos por electrodos implantados en el cerebro.

En el estudio, en el que cuatro pacientes con epilepsia usaron los implantes para controlar las convulsiones causadas por su afección médica, el equipo de la UCSF realizó un experimento paralelo: hacer que los participantes leyeran y repitieran varias oraciones en voz alta, mientras que los electrodos registraron su actividad cerebral durante el ejercicio

Luego, estos datos se introdujeron en una red neuronal que analizaba los patrones en la actividad cerebral correspondientes a ciertas firmas del habla, como las vocales, las consonantes o los movimientos de la boca, basados ​​en grabaciones de audio del experimento.

Después de esto, otra red neuronal decodificó estas representaciones, obtenidas de repeticiones de 30 a 50 oraciones habladas, y las utilizó para tratar de predecir lo que se decía, basándose únicamente en las firmas corticales de las palabras.

En el mejor de los casos, el sistema produjo un tasa de error de palabra (WER) con un participante de solo el 3 por ciento en la traducción de las señales cerebrales en texto, lo que puede estar tan cerca de leer la mente de alguien como lo ha estado la IA, al menos en estas condiciones experimentales estrictamente definidas.

En su artículo, el equipo detalla numerosos ejemplos de las oraciones de referencia que los participantes dijeron, junto con las "predicciones" que generó la red, a veces erróneas, pero no siempre. Sin embargo, cuando los errores fueron aparentes, parecen muy diferentes a los resultados del discurso que los oídos humanos no escucharon (lo que podría ser un efecto secundario del conjunto de datos limitado introducido en la IA).

Ejemplos de errores incluyen: "el museo contrata músicos todas las noches", que se predijo como "el museo contrata músicos todas las mañanas caras"; se predijo que "parte del pastel fue comido por el perro" como "parte del pastel fue la galleta"; y 'tina turner es una cantante pop', que se convirtió en 'did turner es una cantante pop'.

En los casos menos precisos, los errores no tienen prácticamente ninguna relación, semántica o fonéticamente, con lo que se decía: "llevaba un mono de lana cálido y velloso" se interpretó como "el oasis era un espejismo".

No obstante, a pesar de la rareza de los errores obvios, en general, el sistema puede constituir un nuevo punto de referencia para la decodificación de la actividad cerebral basada en IA, y uno que, en el mejor de los casos, está a la par con la transcripción profesional del habla humana, que tiene un WER de 5 por ciento, dice el equipo.

Por supuesto, los transcriptores profesionales que trabajan con hablantes humanos comunes tienen que lidiar con vocabularios que se extienden a decenas de miles de palabras. Por el contrario, este sistema solo tenía que aprender las firmas corticales de unas 250 palabras únicas utilizadas en un conjunto limitado de oraciones cortas, por lo que no es realmente una comparación justa.

Si bien hay numerosos obstáculos que superar, el equipo sugiere que el sistema algún día podría actuar como la base de una prótesis de habla para pacientes que han perdido el poder de hablar. Si tal cosa es posible, podría ser un gran problema, proporcionando a algunas personas una forma de comunicarse con el mundo, y de maneras que pueden ir mucho más allá de lo que muestran los experimentos hasta ahora.

"En un participante implantado crónicamente, la cantidad de datos de capacitación disponibles serán órdenes de magnitud mayores que la media hora más o menos del discurso utilizado en este estudio". los autores explican, "lo que sugiere que el vocabulario y la flexibilidad del lenguaje podrían ser ampliamente expandibles".

Los hallazgos se informan en Nature Neuroscience.

LO MÁS LEÍDO

Leave a Reply

Your email address will not be published. Required fields are marked *