Eliminar conjuntos de datos poco éticos no es suficiente

El análisis de los investigadores también sugiere que Caras etiquetadas en la naturaleza (LFW), un conjunto de datos introducido en 2007 y el primero en usar imágenes de rostros extraídas de Internet, se ha transformado varias veces a lo largo de casi 15 años de uso. Si bien comenzó como un recurso para evaluar modelos de reconocimiento facial solo para investigación, ahora se usa casi exclusivamente para evaluar sistemas diseñados para su uso en el mundo real. Esto es a pesar de una etiqueta de advertencia en el sitio web del conjunto de datos que advierte contra dicho uso.

Más recientemente, el conjunto de datos se reutilizó en un derivado llamado SMFRD, que agregó máscaras faciales a cada una de las imágenes para avanzar en el reconocimiento facial durante la pandemia. Los autores señalan que esto podría plantear nuevos desafíos éticos. Los defensores de la privacidad han criticado tales aplicaciones por alimentar la vigilancia, por ejemplo, y especialmente por permitir que el gobierno identifique a manifestantes enmascarados.

“Este es un documento realmente importante, porque los ojos de las personas generalmente no han estado abiertos a las complejidades y los posibles daños y riesgos de los conjuntos de datos”, dice Margaret Mitchell, investigadora de ética de IA y líder en prácticas de datos responsables, que no fue involucrado en el estudio.

Durante mucho tiempo, la cultura dentro de la comunidad de IA ha sido asumir que los datos existen para ser utilizados, agrega. Este documento muestra cómo eso puede generar problemas en el futuro. “Es realmente importante pensar en los diversos valores que codifica un conjunto de datos, así como los valores que codifica tener un conjunto de datos disponible”, dice ella.

Un arreglo

Los autores del estudio brindan varias recomendaciones para que la comunidad de IA avance. Primero, los creadores deben comunicar más claramente sobre el uso previsto de sus conjuntos de datos, tanto a través de licencias como a través de documentación detallada. También deberían imponer límites más estrictos al acceso a sus datos, tal vez exigiendo a los investigadores que firmen términos de acuerdo o pidiéndoles que llenen una solicitud, especialmente si tienen la intención de construir un conjunto de datos derivados.

En segundo lugar, las conferencias de investigación deben establecer normas sobre cómo se deben recopilar, etiquetar y utilizar los datos, y deben crear incentivos para la creación responsable de conjuntos de datos. NeurIPS, la conferencia de investigación de IA más grande, ya incluye una lista de verificación de las mejores prácticas y pautas éticas.

Mitchell sugiere llevarlo aún más lejos. Como parte del proyecto BigScience, una colaboración entre investigadores de IA para desarrollar un modelo de IA que pueda analizar y generar lenguaje natural bajo un riguroso estándar de ética, ha estado experimentando con la idea de crear organizaciones de administración de conjuntos de datos, equipos de personas que no solo manejar la conservación, el mantenimiento y el uso de los datos, pero también trabajar con abogados, activistas y el público en general para asegurarse de que cumplan con los estándares legales, se recopilen solo con el consentimiento y se puedan eliminar si alguien elige retirar información personal. Dichas organizaciones de administración no serían necesarias para todos los conjuntos de datos, pero ciertamente para los datos extraídos que podrían contener información biométrica o de identificación personal o propiedad intelectual.

“La recopilación y el monitoreo de conjuntos de datos no es una tarea única para una o dos personas”, dice. “Si está haciendo esto de manera responsable, se divide en un montón de tareas diferentes que requieren un pensamiento profundo, una gran experiencia y una variedad de personas diferentes”.

En los últimos años, el campo se ha movido cada vez más hacia la creencia de que los conjuntos de datos cuidadosamente seleccionados serán clave para superar muchos de los desafíos técnicos y éticos de la industria. Ahora está claro que construir conjuntos de datos más responsables no es suficiente. Quienes trabajan en IA también deben comprometerse a largo plazo a mantenerlos y usarlos de manera ética.

Leave a Reply

Your email address will not be published. Required fields are marked *