Cómo nuestros datos codifican el racismo sistemático

Un día, GPT-2, una versión anterior disponible públicamente del modelo de generación de lenguaje automatizado desarrollado por la organización de investigación OpenAI, comenzó a hablarme abiertamente sobre “Derechos blancos”. Dadas indicaciones simples como “un hombre blanco es” o “una mujer negra es”, el texto generado por el modelo se lanzaría a discusiones sobre “naciones arias blancas” e “invasores extranjeros y no blancos”.

Estas diatribas no solo incluían insultos horribles como “perra”, “puta”, “negro”, “chink” y “slanteye”, sino que el texto generado encarnaba una retórica nacionalista blanca estadounidense específica, describiendo “amenazas demográficas” y desviándose Aparte de los antisemitas contra los “judíos” y los “comunistas”.

GPT-2 no piensa por sí mismo, genera respuestas replicando los patrones de lenguaje observados en los datos utilizados para desarrollar el modelo. Este conjunto de datos, denominado WebText, contiene “más de 8 millones de documentos para un total de 40 GB de texto” provenientes de hipervínculos. Estos enlaces fueron seleccionados de las publicaciones más votadas en el sitio web de redes sociales Reddit, como “un indicador heurístico de si otros usuarios encontraron el enlace interesante, educativo o simplemente divertido

. ”

Sin embargo, los usuarios de Reddit, incluidos los que suben y votan a favor, son conocido por incluir supremacistas blancos. Durante años, la plataforma fue plagado de lenguaje racista y enlaces permitidos a contenido que expresa ideología racista. Y aunque hay opciones prácticas disponibles Para frenar este comportamiento en la plataforma, los primeros intentos serios de tomar acción, por la entonces CEO Ellen Pao en 2015, fueron mal recibidos por la comunidad y llevaron a intensos acoso y reacción violenta.

Ya sea que se trate de policías descarriados o de usuarios descarriados, los tecnólogos eligen permitir que esta cosmovisión opresiva particular se solidifique en conjuntos de datos y defina la naturaleza de los modelos que desarrollamos. La propia OpenAI reconoció las limitaciones de la obtención de datos de Reddit y señaló que “muchos grupos malintencionados utilizan esos foros de discusión para organizar

. ” Sin embargo, la organización también continúa haciendo uso del conjunto de datos derivados de Reddit, incluso en versiones posteriores de su modelo de lenguaje. La naturaleza peligrosamente defectuosa de las fuentes de datos es efectivamente descartada por conveniencia, a pesar de las consecuencias. La intención maliciosa no es necesaria para que esto suceda, aunque sí una cierta pasividad y negligencia irreflexivas.

Mentiras piadosas

La supremacía blanca es la falsa creencia de que los individuos blancos son superiores a los de otras razas. No es un simple error, sino una ideología arraigada en engaño. La raza es el primer mito, la superioridad el siguiente. Los defensores de esta ideología se aferran obstinadamente a una invención que los privilegia.

Escuché cómo esta mentira suaviza el lenguaje de un “Guerra contra las drogas“A una”epidemia de opioides, “Y culpa “Salud mental” o “videojuegos” por las acciones de los asaltantes blancos incluso cuando atribuye “pereza“Y”criminalidad”A víctimas no blancas. Me doy cuenta de cómo borra a quienes se parecen a mí y lo veo desarrollarse en un desfile interminable de rostros pálidos de los que parece que no puedo escapar: en películas, portadas de revistas y entregas de premios.

Los conjuntos de datos construidos tan específicamente en y para espacios en blanco representan la realidad construida, no la natural.

Esta sombra sigue cada uno de mis movimientos, un escalofrío incómodo en la nuca. Cuando escucho “asesinato”, no solo veo al oficial de policía con su rodilla en una garganta o el justiciero equivocado con una pistola a su lado, es el economía que estrangula nosotros el enfermedad que debilita nosotros y el gobierno que silencia nos.

Dime, ¿cuál es la diferencia entre la vigilancia excesiva en los vecindarios minoritarios y el sesgo de el algoritmo que envió oficiales allí? ¿Cuál es la diferencia entre un sistema escolar segregado y un sistema escolar discriminatorio? algoritmo de calificación? Entre un médico que no escucha y un algoritmo que te niega una cama de hospital? No existe un racismo sistemático separado de nuestras contribuciones algorítmicas, de la red oculta de despliegues algorítmicos que regularmente colapsan sobre aquellos que ya son más vulnerables.

Resistir el determinismo tecnológico

La tecnología no es independiente de nosotros; es creado por nosotros, y tenemos control total sobre él. Los datos no son simplemente arbitrarios “político”- hay políticas tóxicas y mal informadas específicas que los científicos de datos permiten sin cuidado infiltrarse en nuestros conjuntos de datos. La supremacía blanca es uno de ellos.

Ya nos hemos insertado a nosotros mismos ya nuestras decisiones en el resultado; no hay un enfoque neutral. No existe una versión futura de datos que sea mágicamente imparcial. Los datos siempre serán una interpretación subjetiva de la realidad de alguien, una presentación específica de los objetivos y perspectivas que elegimos priorizar en este momento. Ese es un poder que tenemos aquellos de nosotros responsables de obtener, seleccionar y diseñar estos datos y desarrollar los modelos que interpretan la información. Esencialmente, no hay intercambio de “justicia” por “precisión”; eso es un sacrificio mítico, una excusa para no reconocer nuestro papel en la definición del desempeño excluyendo a los demás en primer lugar.

Leave a Reply

Your email address will not be published. Required fields are marked *