El fabricante de chatbot de AI Babylon Health ataca al clínico en un truco de relaciones públicas después de que se haga público con preocupaciones de seguridad – TechCrunch


Inicio en el Reino Unido Salud de Babilonia extrajo datos de la aplicación de un usuario crítico para crear un comunicado de prensa en el que ataques públicos el médico del Reino Unido que ha pasado años planteando preocupaciones sobre la seguridad del paciente sobre el servicio de chatbot de clasificación de síntomas.

En el presione soltar lanzado el lunes por la noche, Babylon se refiere al Dr. David Watkins, a través de su cuenta de Twitter, como un "troll" y afirma que es "miembros específicos de nuestro personal, socios, clientes, reguladores y periodistas y tuiteó contenido difamatorio sobre nosotros ”.

También escribe que Watkins ha registrado "cientos de horas" y 2.400 pruebas de su servicio en un intento por desacreditar sus preocupaciones de seguridad, diciendo que ha planteado "menos de 100 resultados de pruebas que consideró concernientes ”.

El RP de Babylon también afirma que solo en 20 instancias Watkins encontró "errores genuinos en nuestra IA", mientras que otras instancias se expresaron como "tergiversaciones" o "errores", según un "panel de médicos senior ", que dice el RP de la startup" investigó y revalidó a cada uno " – sugiriendo que la tasa de error identificada por Watkins fue de solo 0.8%.

Captura de pantalla del comunicado de prensa de Babylon que se refiere a las "pruebas troll de Twitter" del Dr. Watkins

Respondiendo al ataque en una entrevista telefónica con TechCrunch Watkins, describió las afirmaciones de Babylon como "absurdo absoluto", diciendo, por ejemplo, que no ha llevado a cabo cerca de 2.400 pruebas de su servicio. "Ciertamente no hay 2.400 evaluaciones de triaje completadas", nos dijo. "Absolutamente no."

Cuando se le preguntó cuántas pruebas cree que completó, Watkins sugirió que es probable que sea entre 800 y 900 carreras completas a través de "triajes completos" (algunas de las cuales, señala, habrían sido pruebas repetidas para ver si la compañía había solucionado problemas que él " d previamente notado).

Dijo que identificó problemas en aproximadamente uno de cada dos o uno de cada tres casos de prueba del bot, aunque en 2018 dice que estaba encontrando muchos más problemas, alegando que era "uno en uno" en esa etapa para una versión anterior de la aplicación.

Watkins sugiere que para llegar a la cifra de 2.400, Babylon probablemente esté contando casos en los que no pudo completar una clasificación completa porque el servicio fue retrasado o fallido. "Han manipulado datos para tratar de desacreditar a alguien que plantea problemas de seguridad del paciente", dijo.

"Obviamente pruebo de una manera que es (que) sé lo que estoy buscando, porque he hecho esto durante los últimos tres años y estoy buscando los mismos problemas que he marcado antes para ver que tengo ellos los arreglaron. Así que tratar de sugerir que mi prueba es en realidad una indicación de que el chatbot es absurdo en sí mismo ”, agregó.

En otro ataque puntiagudo, Babilonia escribe que Watkins ha "publicó más de 6,000 ataques engañosos ", sin especificar exactamente a qué tipo de ataques se refiere (o dónde se han publicado).

Watkins nos dijo que ni siquiera ha twitteado 6,000 veces en total desde que se unió a Twitter hace cuatro años, aunque ha pasado tres años usando la plataforma para plantear preocupaciones sobre problemas de diagnóstico con el chatbot de Babylon.

Como esta serie de tweets donde muestra una clasificación para una paciente que no puede detectar un posible ataque cardíaco.

Watkins nos dijo que no tiene idea de a qué se refiere la cifra de 6,000, y acusa a Babylon de tener una cultura de "tratar de silenciar las críticas" en lugar de comprometerse con preocupaciones genuinas de los médicos.

"Ni una sola vez Babylon se ha acercado a mí y me dijo" hey, Dr. Murphy, o Dr. Watkins, lo que tuiteaste allí es engañoso ", agregó. "Ni una sola vez."

En cambio, dijo que la startup siempre ha tomado un "enfoque despectivo" a las preocupaciones de seguridad que ha planteado. "Mi preocupación general por la forma en que han abordado esto es que una vez más han adoptado un enfoque despectivo a las críticas y nuevamente han tratado de difamar y desacreditar a la persona que está expresando sus preocupaciones", dijo.

Watkins, consultor oncólogo de The Royal Marsden NHS Foundation Trust, quien durante varios años se ha ido por el apodo en línea (Twitter) de @ @DrMurphy11, tuiteando videos del triaje de chatbot de Babylon que dice que ilustran que el bot no identifica correctamente las presentaciones de los pacientes, hizo pública su identidad el lunes cuando asistió a un debate en la Royal Society of Medicine.

Allí hizo una presentación en la que pedía menos exageración y una verificación más independiente de las afirmaciones que realizaba Babylon a medida que dichos sistemas digitales continúan abriéndose paso en el espacio de la atención médica.

En el caso de Babylon, la aplicación tiene un importante animador en el actual Secretario de Estado de Salud del Reino Unido, Matt Hancock, quien ha revelado que es un usuario personal de la aplicación.

Simultáneamente, Hancock está presionando al Servicio Nacional de Salud para que revisar su infraestructura para habilitar la conexión de aplicaciones y servicios de "tecnología de la salud". Para que pueda detectar las sinergias políticas.

Watkins argumenta que el sector necesita un mayor enfoque en la recopilación de pruebas sólidas y pruebas independientes en comparación con el apoyo ministerial sin sentido y los "avales" de la sociedad como sustituto de la debida diligencia.

Señala el ejemplo de Theranos, la empresa de análisis de sangre en desgracia cuya cofundador ahora enfrenta cargos de fraude – diciendo que esto debería proporcionar una señal de alerta importante de la necesidad de pruebas independientes de las afirmaciones de productos de salud "novedosas".

"(La exageración de los productos) es un problema de la industria tecnológica que desafortunadamente parece haber infectado la atención médica en un par de situaciones", nos dijo, refiriéndose al libro de jugadas 'falso' hasta que lo hagas 'de marketing publicitario y escalamiento sin esperar. para verificación externa de reclamos altamente comercializados.

En el caso de Babylon, argumenta que la compañía no ha podido respaldar el marketing hinchado con evidencia del tipo de pruebas clínicas y validación extensas que, según él, deberían ser necesarias para que los pacientes utilicen una aplicación de salud en la naturaleza. (Las referencias a los estudios académicos no se han sostenido al proporcionar a los extraños acceso a los datos para que puedan verificar sus afirmaciones, también dice).

"Recibieron el respaldo de todas estas personas: los fundadores de Google DeepMind, Bupa, Samsung, Tencent, los sauditas les han dado cientos de millones y son una empresa de mil millones de dólares". Tienen el respaldo de Matt Hancock. Tiene un trato con Wolverhampton. Todo parece confiable ", continuó Watkins. “Pero no hay base para esa confiabilidad. Basas la confiabilidad en la capacidad de una empresa para asociarse. Y está asumiendo que esos socios han emprendido la debida diligencia ".

Por su parte, Babylon afirma lo contrario: dice que su aplicación cumple con los estándares regulatorios existentes y apunta a altas "calificaciones de satisfacción del paciente" y la falta de daños reportados por los usuarios como evidencia de seguridad, escribiendo en el mismo PR en el que se encuentra en Watkins:

Nuestra trayectoria habla por sí misma: nuestra IA se ha utilizado millones de veces, y ningún paciente ha informado de ningún daño (un historial de seguridad mucho mejor que cualquier otra consulta de salud en el mundo). Nuestra tecnología cumple con normas regulatorias sólidas en cinco países diferentes y ha sido validada como un servicio seguro por el NHS en diez ocasiones diferentes. De hecho, cuando el NHS revisó nuestro verificador de síntomas, Healthcheck y el portal clínico, dijeron que nuestro método para validarlos "se ha completado utilizando una metodología de evaluación sólida con un alto estándar". Las calificaciones de satisfacción del paciente muestran que más del 85% de nuestros pacientes nos otorgan 5 estrellas (y el 94% otorgan cinco y cuatro estrellas), y la Comisión de Calidad de la Atención recientemente nos calificó como "Sobresalientes" por nuestro liderazgo.

Pero proponer juzgar la eficacia de un servicio relacionado con la salud por la capacidad de un paciente de quejarse si algo sale mal parece, al menos, un enfoque poco ortodoxo: cambiar el principio del juramento hipocrático de "primero no hacer daño" en su cabeza. (Además, hablando teóricamente, alguien que está muerto literalmente no podría quejarse, lo que podría obstruir una laguna bastante grande en cualquier "barra de seguridad" reclamada a través de una metodología de evaluación de este tipo).

En el punto regulatorio, Watkins argumenta que el régimen actual del Reino Unido no está configurado para responder de manera inteligente a un desarrollo como los chatbots de IA y carece de una aplicación estricta en esta nueva categoría.

Las quejas que presentó ante la MHRA (Agencia Reguladora de Productos Médicos y de Salud) han resultado en que le pida a Babylon que trabaje en asuntos, con poco o ningún seguimiento, dice.

Si bien señala que las cláusulas de confidencialidad limitan lo que puede revelar el regulador.

Por supuesto, todo eso podría parecer una gran oportunidad para un cierto tipo de "disruptor" de inicio.

Y la aplicación de Babylon es una de las varias que ahora aplican tecnologías de tipo AI como ayuda de diagnóstico en forma de chatbot, en varios mercados globales. Por lo general, se pide a los usuarios que respondan preguntas sobre sus síntomas y, al final del proceso de clasificación, obtengan información sobre lo que podría ser una posible causa. Aunque los materiales de relaciones públicas de Babylon tienen cuidado de incluir una nota al pie donde se advierte que sus herramientas de IA "no proporcionan un diagnóstico médico, ni son un sustituto de un médico".

Sin embargo, dice Watkins, si lee ciertos titulares y afirmaciones hechas por el producto de la compañía en los medios de comunicación, es posible que se le perdone por salir con una impresión muy diferente, y es este nivel de exageración lo que lo preocupa.

Sugiere que hay otros chatbots con menos dispensación disponibles, sugiere: verificación de nombre Ada Health, con sede en Berlín como tomar un enfoque más reflexivo en ese frente.

Cuando se le preguntó si hay pruebas específicas que le gustaría ver a Babylon hacer para resistir su exageración, Watkins nos dijo: "El punto de partida es obtener una tecnología que consideres segura para ser de dominio público".

En particular, la Comisión Europea está trabajando en marco regulatorio basado en el riesgo para aplicaciones de IA – incluso para casos de uso en sectores como el cuidado de la salud – que requerirían que dichos sistemas sean "transparentes, rastreables y garanticen la supervisión humana", así como también usar datos imparciales para entrenar sus modelos de IA.

"Debido a las afirmaciones hiperbólicas que se han presentado anteriormente sobre Babylon, allí es donde hay un gran problema. ¿Cómo ahora retroceden y hacen que esto sea seguro? Puede hacerlo poniendo ciertas advertencias con respecto a para qué se debe usar esto ”, dijo Watkins, expresando preocupación por la redacción utilizada en la aplicación. "Debido a que se presenta como un diagnóstico para los pacientes y sugiere lo que deben hacer para que salgan con este descargo de responsabilidad diciendo que esto no le está dando ninguna información de atención médica, es solo información, no tiene sentido. No sé qué quiere decir un paciente de eso ".

“Babylon siempre se presenta como muy orientado hacia el paciente, muy centrado en el paciente, escuchamos a los pacientes, escuchamos sus comentarios. Si era paciente y tengo un chatbot que me dice qué hacer y me da un diagnóstico sugerido, al mismo tiempo me dice "ignore esto, no lo use", ¿qué es? " agregó. "¿Cuál es su propósito?

"Creo que hay otros chatbots que lo han definido con mucha más claridad, donde son muy claros en su intención de decir que no estamos aquí para brindarle asesoramiento sobre atención médica; Le proporcionaremos información que puede llevar a su proveedor de atención médica para permitirle tener una discusión de decisión más informada con ellos. Y cuando lo pones en ese contexto, como paciente, creo que tiene mucho sentido. Esta máquina me dará información para que pueda tener una discusión más informada con mi médico. Fantástico. Así que hay cosas simples que simplemente no han hecho. Y me vuelve loco. Soy oncólogo, no debería ser yo quien haga esto ".

Watkins sugirió que la respuesta de Babylon a sus inquietudes de seguridad del paciente "de buena fe" es sintomática de un malestar más profundo dentro de la cultura de la compañía. También ha tenido un impacto negativo en él, convirtiéndolo en un objetivo para partes de los medios de comunicación de derecha.

"Lo que han hecho, aunque pueden no ser los datos de salud de los usuarios, han intentado utilizar datos para intimidar a una persona identificable", dijo sobre el ataque de la compañía. "Como consecuencia de que tienen este enfoque amenazante e intentan intimidar a otras partes, hemos intentado atacar a este tipo". Entonces, ese es el daño que proviene de ello. Han señalado a un individuo como alguien a quien atacar ".

"Me preocupa que haya médicos en esa compañía que, si ven que esto sucede, no van a plantear inquietudes, porque simplemente se te desacreditará en la organización". Y eso es realmente peligroso en el cuidado de la salud ", agregó Watkins. "Debe poder hablar cuando vea inquietudes porque de lo contrario los pacientes corren el riesgo de sufrir daños y las cosas no cambian. Tienes que aprender del error cuando lo ves. No puedes seguir haciendo lo mismo una y otra vez ".

Otros en la comunidad médica han criticado rápidamente a Babylon por atacar a Watkins de una manera tan personal y por revelar detalles sobre su uso de su servicio (médico).

Como un usuario de Twitter, Sam Gallivan, también médico, lo expresó: "¿Pueden otros usuarios de alta frecuencia de Babylon Health esperar que sus consultas médicas se transmitan en un comunicado de prensa?"

La ley ciertamente plantea preguntas sobre el enfoque de Babylon a los datos de salud confidenciales, si está accediendo a la información del paciente con el propósito de intentar aplastar las críticas informadas.

Hemos visto cosas igualmente feas en tecnología antes, por supuesto, como cuando Uber mantuvo una "vista de Dios" de su servicio de transporte y lo usó para vigilar a los periodistas críticos. En ese caso, el mal uso de los datos de la plataforma señaló un problema de cultura tóxica que Uber tuvo que pasar años sudando para cambiar (incluido el cambio de CEO).

El volcado selectivo de datos de Babylon en Watkins también es un ejemplo ilustrativo de la capacidad de un servicio digital para acceder y dar forma a los datos individuales a voluntad, lo que apunta a las asimetrías de poder que subrayan entre estas plataformas tecnológicas de captura de datos (que están ganando una mayor influencia sobre nuestras decisiones) y sus usuarios que solo obtienen acceso altamente controlado e hipercontrolado a las bases de datos que ayudan a alimentar.

Watkins, por ejemplo, nos dijo que ya no puede acceder a su historial de consultas en la aplicación Babylon, proporcionando una captura de pantalla de una pantalla de error (a continuación) que dice que ahora ve cuando intenta acceder al historial de chat en la aplicación. Dijo que no sabe por qué ya no puede acceder a su información de uso histórico, pero dice que la estaba usando como referencia, para ayudar con más pruebas (y ya no puede).

Si es un error, es conveniente para Babylon PR …

Contactamos a Babylon para pedirle que respondiera a las críticas de su ataque a Watkins. La compañía defendió el uso de los datos de su aplicación para generar el comunicado de prensa, argumentando que el "volumen" de consultas que había ejecutado significa que las reglas habituales de protección de datos no se aplican, y alegando que solo había compartido "datos estadísticos no personales". ", A pesar de que esto se adjuntó en el PR a su identidad de Twitter (y, por lo tanto, desde el lunes, a su nombre real).

En un comunicado, el portavoz de Babylon nos dijo:

Si se hacen reclamos relacionados con la seguridad de nuestra tecnología, nuestros profesionales médicos deben investigar estos asuntos para garantizar la precisión y seguridad de nuestros productos. En el caso de los datos de uso recientes que se compartieron públicamente, está claro, dado el volumen de uso, que se trata de datos teóricos (que forman parte de una prueba de precisión y un experimento) en lugar de un verdadero problema de salud de un paciente. Dado el volumen de uso y la forma en que los datos se presentaron públicamente, sentimos que necesitábamos abordar la precisión y usar la información para tranquilizar a nuestros usuarios. Los datos compartidos por nosotros fueron datos estadísticos no personales, y Babylon ha cumplido con sus obligaciones de protección de datos en todo momento. Babylon no publica datos genuinos de salud individualizados del usuario.

También le preguntamos al perro guardián de protección de datos del Reino Unido sobre el episodio y Babylon haciendo público el uso de la aplicación de Watkins. El ICO nos dijo: “Las personas tienen derecho a esperar que las organizaciones manejen su información personal de manera responsable y segura. Si a alguien le preocupa cómo se han manejado sus datos, pueden ponerse en contacto con el ICO y analizaremos los detalles ”.

El director de innovación clínica de Babylon, el Dr. Keith Grimes, asistió al mismo debate de la Royal Society que Watkins esta semana, que se tituló Desarrollos recientes en IA y salud digital 2020 y presentado como una conferencia que "cortará la publicidad en torno a la IA".

Por lo tanto, no parece ser un accidente que su comunicado de prensa de ataque haya sido programado para seguir los pasos de una presentación que habría sabido (al menos desde diciembre pasado) que llegaría ese día, y en la que Watkins argumentó sobre los chatbots de IA " la validación es más importante que la valoración ".

Último verano Babylon anunció un aumento de $ 550 millones en la Serie C, a una valoración de $ 2BN +.

Los inversionistas en la compañía incluyen el Fondo de Inversión Pública de Arabia Saudita, una compañía de seguros de salud no identificada con sede en EE. UU., El Fondo ERGO de Munich Re, Kinnevik, Vostok New Ventures y el cofundador de DeepMind, Demis Hassabis, por nombrar algunos que ayudan a financiar su comercialización.

"Vinieron con una narración", dijo Watkins sobre el mensaje de Babilonia a la Royal Society. "El debate no fue particularmente instructivo o constructivo. Y digo eso simplemente porque Babilonia vino con una narrativa y ellos iban a apegarse a eso. La narrativa fue para evitar cualquier discusión sobre cualquier preocupación de seguridad o el hecho de que había problemas y simplemente describirlo como seguro ".

El contra mensaje del clínico para el evento fue plantear una pregunta que los responsables políticos de la UE están empezando a considerar, pidiendo al fabricante de IA que muestre conjuntos de datos que respalden sus afirmaciones de seguridad.



LO MÁS LEÍDO

Leave a Reply

Your email address will not be published. Required fields are marked *