Artista encuentra fotos de registros médicos privados en un popular conjunto de datos de entrenamiento de IA

Imágenes médicas censuradas encontradas en el conjunto de datos LAION-5B utilizado para entrenar la IA.  Se han añadido las barras negras y la distorsión.
Agrandar / Imágenes médicas censuradas encontradas en el conjunto de datos LAION-5B utilizado para entrenar la IA. Se han añadido las barras negras y la distorsión.

Ars Technica

A fines de la semana pasada, una empresa con sede en California eres un artista que se hace llamar Lapine descubierto fotos de registros médicos privados tomadas por su médico en 2013 a las que se hace referencia en el LAION-5B conjunto de imágenes, que es un fragmento de imágenes disponibles públicamente en la web. Los investigadores de IA descargan un subconjunto de esos datos para entrenar modelos de síntesis de imágenes de IA como Stable Diffusion y Google Imagen.

Lapine descubrió sus fotos médicas en un sitio llamado Have I Been Trained que permite a los artistas ver si su trabajo está en el conjunto de datos LAION-5B. En lugar de realizar una búsqueda de texto en el sitio, Lapine subió una foto reciente de sí misma utilizando la función de búsqueda inversa de imágenes del sitio. Se sorprendió al descubrir un conjunto de dos fotos médicas de su rostro de antes y después, que solo habían sido autorizadas para uso privado por su médico, como se refleja en un formulario de autorización Lapine. tuiteó

y también proporcionado a Ars.

Lapine tiene una condición genética llamada Disqueratosis congénita. “Afecta todo, desde mi piel hasta mis huesos y dientes”, dijo Lapine a Ars Technica en una entrevista. “En 2013, me sometí a una pequeña serie de procedimientos para restaurar los contornos faciales después de haber pasado por tantas rondas de cirugías de boca y mandíbula. Estas imágenes son de mi última serie de procedimientos con este cirujano”.

El cirujano que poseía las fotos médicas murió de cáncer en 2018, según Lapine, y ella sospecha que de alguna manera dejaron la custodia de su consultorio después de eso. “Es el equivalente digital de recibir propiedad robada”, dice Lapine. “Alguien robó la imagen de los archivos de mi médico fallecido y terminó en algún lugar en línea, y luego se raspó en este conjunto de datos”.

Lapine prefiere ocultar su identidad por razones de privacidad médica. Con registros y fotos proporcionados por Lapine, Ars ha confirmado que, de hecho, hay imágenes médicas de ella a las que se hace referencia en el conjunto de datos de LAION. Durante nuestra búsqueda de las fotos de Lapine, también descubrimos miles de fotos similares de registros médicos de pacientes en el conjunto de datos, cada una de las cuales puede tener un estado ético o legal cuestionable similar, muchas de las cuales probablemente se hayan integrado en modelos populares de síntesis de imágenes que les gustan a las empresas. Midjourney y Stability AI se ofrecen como un servicio comercial.

Esto no significa que cualquiera pueda crear repentinamente una versión de IA de la cara de Lapine (tal como está la tecnología en este momento), y su nombre no está vinculado a las fotos, pero le molesta que las imágenes médicas privadas se hayan convertido en un producto sin cualquier forma de consentimiento o recurso para eliminarlos. “Ya es bastante malo que se filtre una foto, pero ahora es parte de un producto”, dice Lapine. “Y esto se aplica a las fotos de cualquier persona, con o sin registro médico. Y el potencial de abuso futuro es realmente alto”.

¿Quién vigila a los vigilantes?

LAION se describe a sí mismo como una organización sin fines de lucro con miembros en todo el mundo, “con el objetivo de poner a disposición del público en general modelos, conjuntos de datos y código relacionado de aprendizaje automático a gran escala”. Sus datos se pueden utilizar en una amplia variedad de proyectos, desde el reconocimiento facial hasta la visión artificial y la síntesis de imágenes.

Por ejemplo, después de un proceso de entrenamiento de IA, algunas de las imágenes en el conjunto de datos LAION se convierten en la base de la asombrosa capacidad de Stable Diffusion para generar imágenes a partir de descripciones de texto. Dado que LAION es un conjunto de URL apuntando a imágenes en la web, LAION no aloja las imágenes en sí. En cambio, LAION dice que los investigadores deben descargar las imágenes de varios lugares cuando quieren usarlas en un proyecto.

El conjunto de datos de LAION está repleto de imágenes potencialmente confidenciales recopiladas de Internet, como estas, que ahora se están integrando en productos comerciales de aprendizaje automático.  Ars ha agregado barras negras por motivos de privacidad.
Agrandar / El conjunto de datos de LAION está repleto de imágenes potencialmente confidenciales recopiladas de Internet, como estas, que ahora se están integrando en productos comerciales de aprendizaje automático. Ars ha agregado barras negras por motivos de privacidad.

Ars Technica

Bajo estas condiciones, la responsabilidad de la inclusión de una imagen en particular en el conjunto de LAION se convierte en un elegante juego de pasar la pelota. Un amigo de Lapine planteó una pregunta abierta en el canal #safety-and-privacy del servidor Discord de LAION el viernes pasado preguntando cómo eliminar sus imágenes del set. El ingeniero de LAION, Romain Beaumont, respondió: “La mejor manera de eliminar una imagen de Internet es pedirle al sitio web de alojamiento que deje de alojarla”, escribió Beaumont. “No estamos alojando ninguna de estas imágenes”.

En los EE. UU., extracción de datos disponibles públicamente de Internet parece ser legal, como afirman los resultados de un caso judicial de 2019. Entonces, ¿es principalmente culpa del médico fallecido? ¿O el sitio que alberga las imágenes ilícitas de Lapine en la web?

Ars se puso en contacto con LAION para comentar sobre estas preguntas, pero no recibió una respuesta al cierre de esta edición. El sitio web de LAION proporciona una forma donde los ciudadanos europeos pueden solicitar que se elimine información de su base de datos para cumplir con las leyes GDPR de la UE, pero solo si una foto de una persona está asociada con un nombre en los metadatos de la imagen. Gracias a servicios como PimEyessin embargo, se ha vuelto trivial asociar el rostro de alguien con nombres por otros medios.

En última instancia, Lapine entiende cómo falló la cadena de custodia de sus imágenes privadas, pero aún así le gustaría que sus imágenes fueran eliminadas del conjunto de datos de LAION. “Me gustaría tener una forma para que cualquier persona solicite que se elimine su imagen del conjunto de datos sin sacrificar la información personal. El hecho de que la hayan extraído de la web no significa que se suponga que sea información pública, o incluso en el web en absoluto”.

Leave a Reply

Your email address will not be published. Required fields are marked *