Ahora que las máquinas pueden aprender, ¿pueden desaprender?

Empresas de todo tipo utilizan aprendizaje automático para analizar los deseos, las aversiones o las caras de las personas. Algunos investigadores ahora se están haciendo una pregunta diferente: ¿Cómo podemos hacer que las máquinas olviden?

Un área incipiente de la informática llamada máquina desaprendizaje busca formas de inducir amnesia selectiva en inteligencia artificial software. El objetivo es eliminar todo rastro de una persona en particular o un punto de datos de un sistema de aprendizaje automático, sin afectar su rendimiento.

Si se hace práctico, el concepto podría dar a las personas más control sobre sus datos y el valor derivado de ellos. Aunque los usuarios ya pueden pedirle a algunas empresas que eliminen datos personales, generalmente no saben qué algoritmos ayudaron a sintonizar o entrenar con su información. El desaprendizaje aut omático podría hacer posible que una persona retire tanto sus datos como la capacidad de una empresa para beneficiarse de ellos.

Aunque intuitivo para cualquiera que haya lamentado lo que compartieron en línea, esa noción de amnesia artificial requiere algunas ideas nuevas en informática. Las empresas gastan millones de dólares en capacitar algoritmos de aprendizaje automático para reconocer rostros o clasificar publicaciones en redes sociales, porque los algoritmos a menudo pueden resolver un problema más rápidamente que los codificadores humanos por sí solos. Pero una vez entrenado, un sistema de aprendizaje automático no se modifica fácilmente, o incluso entendido. La forma convencional de eliminar la influencia de un punto de datos en particular es reconstruir un sistema desde el principio, un ejercicio potencialmente costoso. “Esta investigación tiene como objetivo encontrar un término medio”, dice Aaron Roth, profesor de la Universidad de Pensilvania que está trabajando en el desaprendizaje automático. “¿Podemos eliminar toda la influencia de los datos de alguien cuando solicitan eliminarlos, pero evitar el costo total de volver a capacitarse desde cero?”

El trabajo en el desaprendizaje automático está motivado en parte por la creciente atención a las formas en que la inteligencia artificial puede erosionar la privacidad. Los reguladores de datos de todo el mundo han tenido durante mucho tiempo el poder de obligar a las empresas a eliminar información obtenida ilegalmente. Ciudadanos de algunos lugares, como el ME y California, incluso tienen derecho a solicitar que una empresa elimine sus datos si cambian de opinión sobre lo que revelaron. Más recientemente, los reguladores de EE. UU. Y Europa han dicho que los propietarios de sistemas de inteligencia artificial a veces deben ir un paso más allá: eliminar un sistema que fue entrenado en datos confidenciales.

El año pasado, el regulador de datos del Reino Unido empresas advertidas que algún software de aprendizaje automático podría estar sujeto a derechos de GDPR, como la eliminación de datos, porque un sistema de inteligencia artificial puede contener datos personales. Los investigadores de seguridad han demostrado que los algoritmos a veces pueden verse obligados a filtrar datos confidenciales utilizados en su creación. A principios de este año, la Comisión Federal de Comercio de EE. UU. Inicio de reconocimiento facial forzado Paravision para eliminar una colección de fotos faciales obtenidas incorrectamente y algoritmos de aprendizaje automático entrenados con ellas. El comisionado de la FTC, Rohit Chopra, elogió esa nueva táctica de aplicación como una forma de obligar a una empresa que infringe las reglas de datos a “perder los frutos de su engaño”.

El pequeño campo de la investigación sobre el desaprendizaje de las máquinas se enfrenta a algunas de las cuestiones prácticas y matemáticas planteadas por esos cambios regulatorios. Los investigadores han demostrado que pueden hacer que los algoritmos de aprendizaje automático se olviden bajo ciertas condiciones, pero la técnica aún no está lista para el horario de máxima audiencia. “Como es común en un campo joven, existe una brecha entre lo que esta área aspira a hacer y lo que sabemos hacer ahora”, dice Roth.

Un enfoque prometedor propuesto en 2019 por investigadores de las universidades de Toronto y Wisconsin-Madison implica segregar los datos de origen para un nuevo proyecto de aprendizaje automático en múltiples partes. Luego, cada uno se procesa por separado, antes de que los resultados se combinen en el modelo final de aprendizaje automático. Si posteriormente se debe olvidar un punto de datos, solo se debe reprocesar una fracción de los datos de entrada originales. Se demostró que el enfoque funciona con datos de compras en línea y un colección de más de un millón de fotos.

Roth y colaboradores de Penn, Harvard y Stanford recientemente demostró una falla en ese enfoque, mostrando que el sistema de desaprendizaje fallaría si las solicitudes de eliminación enviadas vinieran en una secuencia particular, ya sea por casualidad o por un actor malintencionado. También mostraron cómo se podría mitigar el problema.

Gautam Kamath, profesor de la Universidad de Waterloo que también trabaja en el desaprendizaje, dice que el problema que el proyecto encontró y solucionó es un ejemplo de las muchas preguntas abiertas que quedan sobre cómo hacer que el desaprendizaje automático sea algo más que una simple curiosidad de laboratorio. Su propio grupo de investigación ha sido explorador cuánto se reduce la precisión de un sistema al desaprender sucesivamente múltiples puntos de datos.

Kamath también está interesado en encontrar formas para que una empresa demuestre, o que un regulador lo compruebe, que un sistema realmente ha olvidado lo que se suponía que debía desaprender. “Parece que está un poco más adelante, pero tal vez eventualmente tengan auditores para este tipo de cosas”, dice.

Es probable que aumenten las razones regulatorias para investigar la posibilidad del desaprendizaje automático a medida que la FTC y otros analicen más de cerca el poder de los algoritmos. Reuben Binns, profesor de la Universidad de Oxford que estudia la protección de datos, dice que la noción de que las personas deberían tener algo que decir sobre el destino y los frutos de sus datos ha crecido en los últimos años tanto en Estados Unidos como en Europa.

Se necesitará un trabajo técnico virtuoso antes de que las empresas de tecnología puedan implementar el desaprendizaje automático como una forma de ofrecer a las personas más control sobre el destino algorítmico de sus datos. Incluso entonces, es posible que la tecnología no cambie mucho sobre los riesgos de privacidad de la era de la inteligencia artificial.

Privacidad diferencial, una técnica inteligente para poner límites matemáticos a lo que un sistema puede filtrar sobre una persona, proporciona una comparación útil. Apple, Google y Microsoft celebran la tecnología, pero se usa con relativa poca frecuencia y los peligros de privacidad aún son abundantes.

Binns dice que si bien puede ser realmente útil, “en otros casos, es más algo que una empresa hace para demostrar que está innovando”. Él sospecha que el desaprendizaje automático puede resultar similar, más una demostración de perspicacia técnica que un cambio importante en la protección de datos. Incluso si las máquinas aprenden a olvidar, los usuarios deberán recordar tener cuidado con las personas con las que comparten los datos.

Esta historia apareció originalmente en wired.com.

Leave a Reply Cancel reply