Investigadores médicos de Google se sintieron humillados cuando la herramienta de detección de IA se queda corta en las pruebas de la vida real - TechCrunch

AI es frecuentemente citado como un trabajador milagroso en medicina, especialmente en procesos de detección, donde los modelos de aprendizaje automático cuentan con habilidades de nivel experto para detectar problemas. Pero como muchas tecnologías, una cosa es tener éxito en el laboratorio, otra muy distinta hacerlo en la vida real, ya que Google Los investigadores aprendieron en una prueba de humildad en clínicas en zonas rurales de Tailandia.

Google Health creó un sistema de aprendizaje profundo que observa imágenes del ojo y busca evidencia de retinopatía diabética, una de las principales causas de pérdida de visión en todo el mundo. Pero a pesar de la alta precisión teórica, la herramienta resultó poco práctica en las pruebas del mundo real, frustrando tanto a los pacientes como a las enfermeras con resultados inconsistentes y una falta general de armonía con las prácticas sobre el terreno.

Debe decirse desde el principio que, aunque las lecciones aprendidas aquí fueron difíciles, es un paso necesario y responsable para realizar este tipo de pruebas, y es recomendable que Google haya publicado estos resultados poco halagadores públicamente. Y está claro a partir de su documentación que el equipo ya tomó en serio los resultados (aunque la publicación del blog presenta una interpretación bastante alegre de los eventos). Pero es igualmente claro que el intento de entrar en picado con esta tecnología se realizó con una falta de comprensión que sería humorística si no se llevara a cabo en un entorno tan serio.

El trabajo de investigación documenta el despliegue de una herramienta destinada a aumentar el proceso existente por el cual los pacientes en varias clínicas en Tailandia son examinados para detectar retinopatía diabética, o DR. Esencialmente, las enfermeras toman pacientes diabéticos de uno en uno, toman imágenes de sus ojos (una "foto de fondo") y los envían en lotes a los oftalmólogos, quienes los evalúan y devuelven resultados … generalmente al menos 4-5 semanas después debido a la alta demanda.

El sistema de Google tenía la intención de proporcionar experiencia similar a la de un oftalmólogo en segundos. En pruebas internas, identificó grados de DR con una precisión del 90 por ciento; Luego, las enfermeras podrían hacer una recomendación preliminar para derivación o pruebas adicionales en un minuto en lugar de un mes (las decisiones automáticas fueron verificadas por un oftalmólogo en una semana). Suena genial, en teoría.

Idealmente, el sistema devolvería rápidamente un resultado como este, que podría compartirse con el paciente.

Pero esa teoría se vino abajo tan pronto como los autores del estudio tocaron el suelo. Como lo describe el estudio:

Observamos un alto grado de variación en el proceso de detección ocular en las 11 clínicas de nuestro estudio. Los procesos de captura y clasificación de imágenes fueron consistentes en todas las clínicas, pero las enfermeras tenían un alto grado de autonomía sobre cómo organizaron el flujo de trabajo de detección, y había diferentes recursos disponibles en cada clínica.

El entorno y los lugares donde se realizaron los exámenes oculares también fueron muy variados en las clínicas. Solo dos clínicas tenían una sala de detección dedicada que podría oscurecerse para garantizar que las pupilas de los pacientes fueran lo suficientemente grandes como para tomar una foto de fondo de alta calidad.

La variedad de condiciones y procesos resultó en el envío de imágenes al servidor que no cumplían con los altos estándares del algoritmo:

El sistema de aprendizaje profundo tiene pautas estrictas con respecto a las imágenes que evaluará … Si una imagen tiene un poco de desenfoque o un área oscura, por ejemplo, el sistema la rechazará, incluso si pudiera hacer una predicción fuerte. Los altos estándares del sistema para la calidad de imagen están en desacuerdo con la consistencia y la calidad de las imágenes que las enfermeras capturaban rutinariamente bajo las restricciones de la clínica, y este desajuste causó frustración y trabajo adicional.

El sistema rechazaría las imágenes con DR evidente pero de baja calidad, lo que complicaría y ampliaría el proceso. Y fue entonces cuando pudieron subirlos al sistema en primer lugar:

En una conexión a Internet fuerte, estos resultados aparecen en unos pocos segundos. Sin embargo, las clínicas en nuestro estudio a menudo experimentaron conexiones más lentas y menos confiables. Esto hace que algunas imágenes tarden entre 60 y 90 segundos en cargarse, lo que ralentiza la cola de detección y limita el número de pacientes que se pueden examinar en un día. En una clínica, Internet se apagó durante un período de dos horas durante el examen de la vista, lo que redujo el número de pacientes examinados de 200 a solo 100.

"Primero, no hacer daño" podría decirse que está en juego aquí: en este caso, menos personas recibieron tratamiento debido a un intento de aprovechar esta tecnología. Las enfermeras probaron varias soluciones, pero la inconsistencia y otros factores llevaron a algunos a aconsejar a los pacientes que no participaran en el estudio.

Incluso el mejor de los casos tuvo consecuencias imprevistas. Los pacientes no estaban preparados para una evaluación instantánea y establecer una cita de seguimiento inmediatamente después de enviar la imagen.

Como resultado del diseño del protocolo del estudio prospectivo, y potencialmente la necesidad de hacer planes sobre el terreno para visitar el hospital de referencia, observamos a las enfermeras en las clínicas 4 y 5 disuadir a los pacientes de participar en el estudio prospectivo, por temor a que esto pudiera causar dificultades innecesarias.

Como dijo una de esas enfermeras:

“(Los pacientes) no están preocupados por la precisión, pero cómo será la experiencia: ¿perderá mi tiempo si tengo que ir al hospital? Les aseguro que no tienen que ir al hospital. Preguntan: "¿lleva más tiempo?", "¿Voy a otro lado?" Algunas personas no están listas para ir, así que no se unirán a la investigación. 40-50% no se unen porque piensan que tienen que ir al hospital ".

No todas son malas noticias, por supuesto. El problema no es que la IA no tenga nada que ofrecer una clínica tailandesa abarrotada, sino que la solución debe adaptarse al problema y al lugar. Tanto los pacientes como las enfermeras disfrutaron de la evaluación automática instantánea y fácil de entender cuando funcionó bien, a veces ayudando a demostrar que se trataba de un problema grave que debía abordarse pronto. Y, por supuesto, el beneficio principal de reducir la dependencia de un recurso severamente limitado (oftalmólogos locales) es potencialmente transformador.

Pero los autores del estudio parecían claros en su evaluación de esta aplicación prematura y parcial de su sistema de IA. Como lo dicen:

Cuando se introdujeron nuevas tecnologías, los planificadores, los encargados de formular políticas y los diseñadores de tecnología no tuvieron en cuenta la naturaleza dinámica y emergente de los problemas que surgen en los programas de salud complejos. Los autores sostienen que atender a las personas (sus motivaciones, valores, identidades profesionales y las normas y rutinas actuales que dan forma a su trabajo) es vital cuando se planifican los despliegues.

Vale la pena leer el documento como una introducción a la forma en que las herramientas de inteligencia artificial deben funcionar en entornos clínicos y los obstáculos que enfrentan, tanto por la tecnología como por los que están destinados a adoptarla.

LO MÁS LEÍDO

Investigadores médicos de Google se sintieron humillados cuando la herramienta de detección de IA se queda corta en las pruebas de la vida real – TechCrunch

Leave a Reply Cancel reply