La IA podría ser una fuerza poderosa para el bien

La Inteligencia Artificial (IA) ya está reconfigurando el mundo de manera notable. Los datos impulsan nuestro ecosistema digital global, y las tecnologías de inteligencia artificial revelan patrones en los datos.

Los teléfonos inteligentes, las casas inteligentes y las ciudades inteligentes influyen en la forma en que vivimos e interactuamos, y los sistemas de IA están cada vez más involucrados en las decisiones de reclutamiento, diagnósticos médicos y veredictos judiciales. Si este escenario es utópico o distópico Depende de tu perspectiva.

Los riesgos potenciales de la IA se enumeran repetidamente. Robots asesinos y desempleo masivo son preocupaciones comunes, mientras que algunas personas incluso temen extinción humana. Las predicciones más optimistas afirman que la IA agregará US $ 15 billones a la economía mundial para 2030, y eventualmente nos llevará a algún tipo de nirvana social.

Ciertamente necesitamos considerar el impacto que tales tecnologías están teniendo en nuestras sociedades. Una preocupación importante es que los sistemas de IA refuerzan los existentes sesgos sociales – a efecto perjudicial.

Varios ejemplos notorios de este fenómeno han recibido una atención generalizada: sistemas de traducción automática automatizados de última generación que producir salidas sexistasy sistemas de reconocimiento de imágenes que clasifican a las personas negras como gorilas

Estos problemas surgen porque dichos sistemas utilizan modelos matemáticos (como las redes neuronales) para identificar patrones en grandes conjuntos de datos de entrenamiento. Si esos datos están muy sesgados de varias maneras, entonces sus prejuicios inherentes inevitablemente serán aprendidos y reproducidos por los sistemas entrenados.

Las tecnologías autónomas sesgadas son problemáticas ya que potencialmente pueden marginar grupos como las mujeres, las minorías étnicas o los ancianos, lo que agrava los desequilibrios sociales existentes.

Si los sistemas de IA están entrenados en datos de arrestos policiales, por ejemplo, cualquier sesgo consciente o inconsciente manifestado en los patrones existentes de arrestos se replicaría mediante una "vigilancia predictiva" Sistema de IA entrenado en esos datos.

Reconociendo las serias implicaciones de esto, varias organiz aciones autorizadas han aconsejado recientemente que todos los sistemas de IA deben ser entrenados en datos imparciales. Guías éticas

publicado a principios de 2019 por la Comisión Europea ofreció la siguiente recomendación:

Cuando se recopilan datos, pueden contener sesgos, inexactitudes, errores y equivocaciones socialmente construidos. Esto debe abordarse antes de la capacitación con cualquier conjunto de datos dado.

Manejo de datos sesgados

Todo esto suena bastante sensato. Pero desafortunadamente, a veces es simplemente imposible garantizar que ciertos conjuntos de datos sean imparciales antes de la capacitación. Un ejemplo concreto debería aclarar esto.

Todos los sistemas de traducción automática de última generación (como Google Translate) están capacitados en pares de oraciones.

Un sistema inglés-francés utiliza datos que asocian oraciones en inglés ("ella es alta") con oraciones en francés equivalentes ("elle est grande").

Puede haber 500 millones de parejas de este tipo en un conjunto dado de datos de entrenamiento y, por lo tanto, mil millones de oraciones separadas en total. Todos los prejuicios relacionados con el género tendrían que eliminarse de un conjunto de datos de este tipo si quisiéramos evitar que el sistema resultante produzca resultados sexistas como los siguientes:

Entrada: Las mujeres comenzaron la reunión. Trabajaron eficientemente.
Salida: Les femmes no comenzaron la reunión. Ils ont travaillé eficacia.

La traducción al francés se generó con Google Translate el 11 de octubre de 2019 y es incorrecta: "Ils"es el pronombre sujeto masculino plural en francés, y aparece aquí a pesar del contexto que indica claramente que se hace referencia a las mujeres.

Este es un ejemplo clásico de que el sistema automatizado prefiere el defecto masculino debido a sesgos en los datos de entrenamiento.

En general, 70 por ciento de los pronombres de género en los conjuntos de datos de traducción son masculinos, mientras que el 30 por ciento son femeninos. Esto se debe a que los textos utilizados para tales fines tienden a referirse a los hombres más que a las mujeres.

Para evitar que los sistemas de traducción reproduzcan estos sesgos existentes, los pares de oraciones específicas tendrían que eliminarse de los datos, de modo que los pronombres masculinos y femeninos ocurrieran 50/50 en los lados inglés y francés. Esto evitaría que el sistema asigne mayores probabilidades a los pronombres masculinos.

Los sustantivos y adjetivos también tendrían que equilibrarse 50/50, por supuesto, ya que pueden indicar género en Ambos idiomas ("actor", "actriz"; "neuf", "neuve"), etc. Pero este drástico muestreo descendente necesariamente reduciría considerablemente los datos de capacitación disponibles, disminuyendo así la calidad de las traducciones producidas.

E incluso si el subconjunto de datos resultante estuviera completamente equilibrado en cuanto al género, aún estaría sesgado en todo tipo de otras formas (como el origen étnico o la edad). En verdad, sería difícil eliminar todos estos prejuicios completamente.

Si una persona dedicara solo cinco segundos a leer cada uno de los mil millones de oraciones en los datos de capacitación, tomaría 159 años revisarlos todos, y eso supone asumir la voluntad de trabajar todo el día y la noche, sin pausas para el almuerzo.

¿Una alternativa?

Por lo tanto, no es realista exigir que todos los conjuntos de datos de entrenamiento sean imparciales antes de construir los sistemas de IA. Tales requisitos de alto nivel generalmente suponen que "AI" denota un grupo homogéneo de modelos matemáticos y enfoques algorítmicos.

En realidad, diferentes tareas de IA requieren tipos muy diferentes de sistemas. Y minimizar la extensión total de esta diversidad oculta los problemas reales planteados por (digamos) datos de entrenamiento profundamente sesgados. Esto es lamentable, ya que significa que se descuidan otras soluciones al problema de sesgo de datos.

Por ejemplo, los sesgos en un sistema de traducción automática capacitado pueden reducirse sustancialmente si el sistema se adapta después de haber sido capacitado en el conjunto de datos más grande, inevitablemente sesgado.

Esto se puede hacer usando un conjunto de datos mucho más pequeño y menos sesgado. Por lo tanto, la mayoría de los datos pueden estar fuertemente sesgados, pero el sistema capacitado en ellos no necesita serlo. Desafortunadamente, estas técnicas rara vez son discutidas por aquellos encargados de desarrollar pautas y marcos legislativos para la investigación de IA.

Si los sistemas de IA simplemente refuerzan los desequilibrios sociales existentes, entonces obstruyen en lugar de facilitar el cambio social positivo. Si las tecnologías de IA que utilizamos cada vez más a diario son mucho menos parciales que nosotros, entonces podrían ayudarnos a reconocer y enfrentar nuestros propios prejuicios al acecho.

Seguramente esto es en lo que deberíamos estar trabajando. Por lo tanto, los desarrolladores de inteligencia artificial deben pensar mucho más detenidamente sobre las consecuencias sociales de los sistemas que construyen, mientras que aquellos que escriben sobre inteligencia artificial deben comprender con más detalle cómo se diseñan y construyen realmente los sistemas de inteligencia artificial.

Porque si de hecho nos estamos acercando a un idilio tecnológico o un apocalipsis, sería preferible el primero.

Marcus Tomalin, Investigador Asociado Senior en el Laboratorio de Inteligencia de Máquinas, Departamento de Ingeniería, Universidad de Cambridge y Stefanie Ullmann, Investigador Postdoctoral Asociado, Universidad de Cambridge.

Este artículo se republica de La conversación bajo una licencia Creative Commons. Leer el artículo original.

LO MÁS LEÍDO

Manejo de datos sesgados

¿Una alternativa?

Leave a Reply Cancel reply