Los hospitales adoptan herramientas de transcripción de IA propensas a errores a pesar de las advertencias

Los hospitales adoptan herramientas de transcripción de IA propensas a errores a pesar de las advertencias

Los hospitales adoptan herramientas de transcripción de IA propensas a errores a pesar de las advertencias

En un caso del estudio citado por AP, cuando un orador describió a “otras dos niñas y una dama”, Whisper agregó un texto ficticio que especificaba que “eran negras”. En otro, el audio decía: “Él, el niño, iba, no estoy seguro exactamente, a tomar el paraguas”. Whisper lo transcribió así: “Tomó un trozo grande de una cruz, un trozo muy pequeño… Estoy seguro de que no tenía un cuchillo terrorista, así que mató a varias personas”.

Un portavoz de OpenAI dijo a la AP que la compañía aprecia los hallazgos de los investigadores y que estudia activamente cómo reducir las fabricaciones e incorpora comentarios en las actualizaciones del modelo.

Por qué Whisper confabula

La clave de la inadecuación de Whisper en dominios de alto riesgo proviene de su propensión a veces a confabular, o inventar de manera plausible, resultados inexactos. El informe de AP dice: “Los investigadores no están seguros de por qué Whisper y herramientas similares producen alucinaciones”, pero eso no es cierto. Sabemos exactamente por qué Basado en transformador Los modelos de IA como Whisper se comportan de esta manera.

Whisper se basa en una tecnología diseñada para predecir el siguiente token (fragmento de datos) más probable que debería aparecer después de una secuencia de tokens proporcionados por un usuario. En el caso de ChatGPT, los tokens de entrada vienen en forma de mensaje de texto. En el caso de Whisper, la entrada son datos de audio tokenizados.

El resultado de la transcripción de Whisper es una predicción de lo que es más probable, no de lo que es más preciso. La precisión en las salidas basadas en transformadores suele ser proporcional a la presencia de datos precisos relevantes en el conjunto de datos de entrenamiento, pero nunca está garantizada. Si alguna vez se da el caso en el que no hay suficiente información contextual en su red neuronal para que Whisper haga una predicción precisa sobre cómo transcribir un segmento particular de audio, el modelo recurrirá a lo que “sabe” sobre las relaciones entre sonidos y palabras que ha aprendido de sus datos de entrenamiento.