Investigadores de privacidad diseñan un ataque de explotación de ruido que derrota el anonimato dinámico - TechCrunch

Los investigadores de privacidad en Europa creen que tienen la primera prueba de que una vulnerabilidad largamente teorizada en sistemas diseñados para proteger la privacidad al agregar y agregar ruido a los datos para enmascarar identidades individuales ya no es solo una teoría.

La investigación tiene implicaciones para el campo inmediato de privacidad diferencial y más allá: planteando preguntas de gran alcance sobre cómo se regula la privacidad si el anonimato solo funciona hasta que un atacante determinado descubra cómo revertir el método que se utiliza para difuminar dinámicamente los datos.

La legislación actual de la UE no reconoce los datos anónimos como datos personales. Aunque trata los datos pseudoanonimizados como datos personales debido al riesgo de reidentificación.

Sin embargo, un creciente cuerpo de investigación sugiere que el riesgo de anonimización en conjuntos de datos de alta dimensión es persistente. Incluso, según esta última investigación, cuando un sistema de base de datos ha sido cuidadosamente diseñado teniendo en cuenta la protección de la privacidad.

Sugiere que todo el negocio de la protección de la privacidad necesita ser mucho más dinámico para responder al riesgo de ataques en constante evolución.

Los académicos del Imperial College London y la Université Catholique de Louvain están detrás de la nueva investigación.

Esta semana, en el 28º Simposio de Seguridad USENIX, presentaron un papel que detalla una nueva clase de ataques de explotación de ruido en una base de datos basada en consultas que utiliza agregación e inyección de ruido para enmascarar dinámicamente datos personales.

El producto que estaban buscando es un marco de consulta de base de datos, llamado Diffix, desarrollado conjuntamente por una startup alemana llamada Capa de aire y la Instituto Max Planck para Sistemas de Software.

En su sitio web, Aircloak anuncia la tecnología como "la primera anonimización de grado GDPR", también conocido como el Reglamento General de Protección de Datos de Europa, que comenzó a aplicarse el año pasado, elevando el listón para el cumplimiento de la privacidad al introducir un régimen de protección de datos que incluye multas que pueden aumentar al 4% de la facturación anual global de un procesador de datos.

Lo que Aircloak esencialmente ofrece es administrar el riesgo GDPR al proporcionar el anonimato como un servicio comercial, lo que permite que las consultas se ejecuten en un conjunto de datos que permite a los analistas obtener información valiosa sin acceder a los datos en sí. La promesa es que la privacidad (y GDPR) es "segura" porque está diseñada para enmascarar identidades individuales al devolver resultados anónimos.

El problema es que los datos personales que se pueden volver a identificar no son datos anónimos. Y los investigadores pudieron crear ataques que deshacen el anonimato dinámico de Diffix.

"Lo que hicimos aquí es que estudiamos el sistema y demostramos que en realidad existe una vulnerabilidad en su sistema que nos permite usar su sistema y enviar consultas cuidadosamente creadas que nos permiten extraer, extraer información de los datos". "establece que se supone que el sistema debe proteger", explica Yves-Alexandre de Montjoye, del Imperial College, uno de los cinco coautores del artículo.

“La privacidad diferencial realmente muestra que cada vez que respondes una de mis preguntas me estás dando información y, en algún momento, hasta el extremo, si sigues respondiendo a cada una de mis preguntas, te haré tantas preguntas que en algún momento Habré descubierto cada cosa que existe en la base de datos porque cada vez que me das un poco más de información ”, dice sobre la premisa detrás del ataque. "Algo no se sentía bien … Era demasiado bueno para ser verdad. Ahí es donde empezamos ".

Los investigadores decidieron centrarse en Diffix mientras respondían a un desafío de ataque de recompensa de errores presentado por Aircloak.

“Comenzamos con una consulta y luego hacemos una variación de la misma y al estudiar las diferencias entre las consultas sabemos que parte del ruido desaparecerá, parte del ruido no desaparecerá y al estudiar el ruido que no desaparece básicamente nos damos cuenta fuera de la información sensible ", explica.

“Lo que mucha gente hará es tratar de cancelar el ruido y recuperar la información. Lo que estamos haciendo con este ataque es tomarlo al revés y estamos estudiando el ruido … y al estudiar el ruido logramos inferir la información que el ruido estaba destinado a proteger.

"Entonces, en lugar de eliminar el ruido, estudiamos estadísticamente el ruido enviado de regreso que recibimos cuando enviamos consultas cuidadosamente diseñadas, así es como atacamos el sistema".

Existe una vulnerabilidad porque el ruido inyectado dinámicamente depende de los datos. Lo que significa que permanece vinculado a la información subyacente, y los investigadores pudieron demostrar que las consultas cuidadosamente elaboradas pueden idearse para respuestas de referencia cruzada que permitan a un atacante revelar información que el ruido está destinado a proteger.

O, para decirlo de otra manera, un ataque bien diseñado puede inferir con precisión los datos personales de las respuestas difusas ("anonimizadas").

Esto a pesar de que el sistema en cuestión es "bastante bueno", como dice Montjoye de Diffix. "Está bien diseñado: realmente piensan mucho en esto y lo que hacen es que agregan un poco de ruido a cada respuesta que le envían para evitar ataques".

"Es lo que se supone que está protegiendo el sistema, pero filtra información porque el ruido depende de los datos que están tratando de proteger". Y esa es realmente la propiedad que utilizamos para atacar el sistema ".

Los investigadores pudieron demostrar que el ataque funcionaba con una precisión muy alta en cuatro conjuntos de datos del mundo real. "Probamos los datos del censor estadounidense, probamos los datos de la tarjeta de crédito, probamos la ubicación", dice. “Lo que mostramos para diferentes conjuntos de datos es que este ataque funciona muy bien.

“Lo que mostramos es que nuestro ataque identificó que el 93% de las personas en el conjunto de datos están en riesgo. Y creo que lo más importante es que el método es en realidad una precisión muy alta: entre 93% y 97% de precisión en una variable binaria. Entonces, si es verdadero o falso, podríamos adivinar correctamente entre el 93 y el 97% de las veces ".

También pudieron optimizar el método de ataque para poder filtrar información con un nivel relativamente bajo de consultas por usuario, hasta 32.

"Nuestro objetivo era qué tan bajo podemos obtener ese número para que no se vea como un comportamiento anormal", dice. "Logramos disminuirlo en algunos casos hasta 32 consultas, lo cual es muy poco en comparación con lo que haría un analista".

Después de revelar el ataque a Aircloak, de Montjoye dice que ha desarrollado un parche, y está describiendo la vulnerabilidad como de muy bajo riesgo, pero señala que aún no ha publicado detalles del parche, por lo que no ha sido posible evaluar de forma independiente su efectividad.

"Es un poco desafortunado", agrega. "Básicamente reconocen la vulnerabilidad (pero) no dicen que sea un problema. En el sitio web lo clasifican como de bajo riesgo. Es un poco decepcionante en ese frente. Creo que se sintieron atacados y ese no era realmente nuestro objetivo ".

Para los investigadores, la conclusión clave del trabajo es que se necesita un cambio de mentalidad en torno a la protección de la privacidad similar al cambio que experimentó la industria de la seguridad al pasar de sentarse detrás de un firewall a la espera de ser atacado para adoptar un enfoque proactivo y adversario que está destinado a hackers inteligentes.

"Como comunidad, realmente avanzar hacia algo más cercano a la privacidad conflictiva", le dice a TechCrunch. “Necesitamos comenzar a adoptar el equipo rojo, las pruebas de penetración del equipo azul que se han convertido en estándar en seguridad.

"En este punto, es poco probable que encontremos un sistema perfecto, así que creo que lo que tenemos que hacer es cómo encontrar formas de ver esas vulnerabilidades, parchear esos sistemas y realmente tratar de probar los sistemas que se están implementando. ¿Y cómo nos aseguramos de que esos sistemas sean verdaderamente seguros?

"Lo que tomamos de esto es realmente: por un lado, necesitamos la seguridad, qué podemos aprender de la seguridad, incluidos los sistemas abiertos, el mecanismo de verificación, necesitamos muchas pruebas con bolígrafos que suceden en seguridad, ¿cómo podemos aportar algunos de eso a la privacidad?

"Si su sistema libera datos agregados y agrega algo de ruido, esto no es suficiente para hacerlo anónimo y probablemente existan ataques", agrega.

“Esto es mucho mejor de lo que hacen las personas cuando tomas el conjunto de datos y tratas de agregar ruido directamente a los datos. Puedes ver por qué intuitivamente ya es mucho mejor. Pero incluso estos sistemas son propensos a tener vulnerabilidades. Entonces, la pregunta es ¿cómo podemos encontrar un equilibrio, cuál es el papel del regulador, cómo avanzamos y realmente cómo aprendemos realmente de la comunidad de seguridad?

“Necesitamos más que algunas soluciones ad hoc y solo consultas limitadas. Una vez más, limitar las consultas sería lo que haría la privacidad diferencial, pero en un entorno práctico es bastante difícil.

“La última parte, nuevamente en seguridad, es la defensa en profundidad. Básicamente es un enfoque en capas: es como si supiéramos que el sistema no es perfecto, por lo que, además, agregaremos otra protección ".

La investigación también plantea preguntas sobre el papel de las autoridades de protección de datos.

Durante el desarrollo de Diffix, Aircloak escribe en su sitio web que trabajó con la DPA de Francia, la CNIL y una empresa privada que certifica productos y servicios de protección de datos, diciendo: "En ambos casos tuvimos éxito en la medida en que recibimos el respaldo más sólido que ofrece cada organización".

Aunque también dice que la experiencia "nos convenció de que ninguna organización de certificación o DPA está realmente en condiciones de afirmar con gran confianza que Diffix, o para el caso cualquier tecnología de anonimización compleja, es anónima", y agregó: "Estas organizaciones tampoco tienen la experiencia o no tienen el tiempo y los recursos para dedicarlos al problema ".

El ataque de explotación de ruido de los investigadores demuestra cómo incluso un nivel de "aprobación" reglamentaria puede parecer problemático. Incluso los sistemas de privacidad complejos bien diseñados pueden contener vulnerabilidades y no pueden ofrecer una protección perfecta.

"Plantea una tonelada de preguntas", dice de Montjoye. "Es difícil. Fundamentalmente se pregunta incluso ¿cuál es el papel del regulador aquí?

Cuando nos fijamos en la seguridad, creo que es como si el regulador estuviera estableciendo normas y, en realidad, el papel de la empresa es garantizar que cumpla con esas normas. Eso es lo que sucede en las infracciones de datos.

"En algún momento es realmente una cuestión de, cuando sucede algo (malo), si esto fue suficiente o no como defensa (de privacidad), ¿cuál es el estándar de la industria? Es muy difícil ".

"La anonimización está establecida en la ley, ya no son datos personales, por lo que realmente hay muchas implicaciones", agrega. “Una vez más, desde la seguridad, aprendemos muchas cosas sobre la transparencia. La buena seguridad y el buen cifrado se basan en un protocolo abierto y en mecanismos que todos pueden ver y tratar de atacar, por lo que en este momento realmente hay mucho que aprender de la seguridad.

"No habrá ningún sistema perfecto. Se seguirá descubriendo la vulnerabilidad, por lo que la pregunta es cómo nos aseguramos de que las cosas sigan bien y sigamos aprendiendo de la seguridad: cómo las reparamos rápidamente, cómo nos aseguramos de que haya mucha investigación en todo el sistema para limitar riesgo, para asegurarse de que las vulnerabilidades sean descubiertas por los buenos, estos son parcheados y realmente (¿cuál es) el papel del regulador?

"Los datos pueden tener malas aplicaciones y muchas aplicaciones realmente buenas, así que creo que realmente se trata de cómo tratar de obtener la mayor parte de lo bueno y limitar al máximo el riesgo de privacidad".

LO MÁS LEÍDO

Investigadores de privacidad diseñan un ataque de explotación de ruido que derrota el anonimato dinámico – TechCrunch

Leave a Reply Cancel reply