Leímos el documento que obligó a Timnit Gebru a salir de Google. Esto es lo que dice

Muchos detalles de la secuencia exacta de eventos que llevaron a la partida de Gebru aún no están claros; tanto ella como Google se han negado a comentar más allá de sus publicaciones en las redes sociales. Pero . obtuvo una copia del artículo de investigación de uno de los coautores, Emily M. Bender, profesora de lingüística computacional en la Universidad de Washington. Aunque Bender nos pidió que no publiquemos el documento en sí porque los autores no querían que un borrador tan temprano circulara en línea, da una idea de las preguntas que Gebru y sus colegas estaban planteando sobre la IA que podrían estar causando preocupación en Google.

Titulado “Sobre los peligros de los loros estocásticos: ¿Pueden los modelos lingüísticos ser demasiado grandes?” el documento expone los riesgos de los grandes modelos de lenguaje: IA entrenados en cantidades asombrosas de datos de texto. Estos se han vuelto cada vez más populares, y cada vez más grandes, en los últimos tres años. Ahora son extraordinariamente buenos, en las condiciones adecuadas, para producir lo que parece un texto nuevo convincente y significativo y, a veces, para estimar el significado del lenguaje. Pero, dice la introducción del documento, “preguntamos si se ha pensado lo suficiente en los riesgos potenciales asociados con su desarrollo y las estrategias para mitigar estos riesgos”.

El papel

El artículo, que se basa en el trabajo de otros investigadores, presenta la historia del procesamiento del lenguaje natural, una descripción general de los cuatro riesgos principales de los grandes modelos de lenguaje y sugerencias para futuras investigaciones. Dado que el conflicto con Google parece estar relacionado con los riesgos, nos hemos centrado en resumirlos aquí.

Costos ambientales y financieros

El entrenamiento de grandes modelos de IA consume mucha potencia de procesamiento de la computadora y, por lo tanto, mucha electricidad. Gebru y sus coautores se refieren a un artículo de 2019 de Emma Strubell y sus colaboradores sobre las emisiones de carbono y los costos financieros de los grandes modelos lingüísticos. Descubrió que su consumo de energía y huella de carbono se han disparado desde 2017, ya que los modelos se han alimentado cada vez con más datos.

El estudio de Strubell encontró que un modelo de lenguaje con un tipo particular de método de “búsqueda de arquitectura neuronal” (NAS) habría producido el equivalente a 626,155 libras (284 toneladas métricas) de dióxido de carbono, aproximadamente la producción de por vida de cinco autos estadounidenses promedio. Una versión del modelo de lenguaje de Google, BERT, que sustenta el motor de búsqueda de la empresa, produjo 1,438 libras de CO2 equivalente en la estimación de Strubell, casi lo mismo que un vuelo de ida y vuelta entre la ciudad de Nueva York y San Francisco.

El borrador del documento de Gebru señala que los recursos necesarios para construir y mantener modelos de IA tan grandes significa que tienden a beneficiar a las organizaciones ricas, mientras que el cambio climático golpea con más fuerza a las comunidades marginadas. “Ya es hora de que los investigadores prioricen la eficiencia energética y el costo para reducir el impacto ambiental negativo y el acceso desigual a los recursos”, escriben.

Datos masivos, modelos inescrutables

Los modelos de lenguaje grandes también se entrenan en cantidades de texto que aumentan exponencialmente. Esto significa que los investigadores han tratado de recopilar todos los datos que pueden de Internet, por lo que existe el riesgo de que el lenguaje racista, sexista y abusivo termine en los datos de entrenamiento.

Un modelo de inteligencia artificial que se enseñe a ver el lenguaje racista como normal es obviamente malo. Los investigadores, sin embargo, señalan un par de problemas más sutiles. Uno es que los cambios en el lenguaje juegan un papel importante en el cambio social; los movimientos MeToo y Black Lives Matter, por ejemplo, han tratado de establecer un nuevo vocabulario anti-sexista y anti-racista. Un modelo de IA entrenado en vastas franjas de Internet no estará en sintonía con los matices de este vocabulario y no producirá ni interpretará el lenguaje de acuerdo con estas nuevas normas culturales.

Tampoco podrá captar el idioma y las normas de los países y pueblos que tienen menos acceso a Internet y, por lo tanto, una menor huella lingüística en línea. El resultado es que el lenguaje generado por IA se homogeneizará, reflejando las prácticas de los países y comunidades más ricos.

Además, debido a que los conjuntos de datos de entrenamiento son tan grandes, es difícil auditarlos para verificar estos sesgos integrados. “Una metodología que se basa en conjuntos de datos demasiado grandes para documentar es, por lo tanto, intrínsecamente riesgosa”, concluyen los investigadores. “Si bien la documentación permite una posible responsabilidad, […] Los datos de entrenamiento indocumentados perpetúan el daño sin recurso ”.

Costos de oportunidad de investigación

Los investigadores resumen el tercer desafío como el riesgo de un “esfuerzo de investigación mal dirigido”. Aunque la mayoría de los investigadores de IA reconocen que los grandes modelos de lenguaje entender idioma y son simplemente excelentes en manipulando Big Tech puede ganar dinero con modelos que manipulan el lenguaje con mayor precisión, por lo que sigue invirtiendo en ellos. “Este esfuerzo de investigación trae consigo un costo de oportunidad”, escriben Gebru y sus colegas. No se dedica tanto esfuerzo a trabajar en modelos de IA que puedan lograr la comprensión o que logren buenos resultados con conjuntos de datos más pequeños y cuidadosamente seleccionados (y, por lo tanto, también consuman menos energía).

Ilusiones de significado

El problema final con los modelos de lenguaje grandes, dicen los investigadores, es que debido a que son tan buenos imitando el lenguaje humano real, es fácil usarlos para engañar a la gente. Ha habido algunos casos de alto perfil, como el de un estudiante universitario que publicó en un blog consejos de productividad y autoayuda generados por IA, que se volvió viral.

Los peligros son obvios: los modelos de inteligencia artificial podrían usarse para generar información errónea sobre una elección o la pandemia del covid-19, por ejemplo. También pueden fallar inadvertidamente cuando se utilizan para la traducción automática. Los investigadores presentan un ejemplo: en 2017, Facebook mal traducido la publicación de un palestino, que decía “buenos días” en árabe, como “atacarlos” en hebreo, lo que llevó a su arresto.

Por que importa

El artículo de Gebru y Bender tiene seis coautores, cuatro de los cuales son investigadores de Google. Bender pidió evitar revelar sus nombres por temor a repercusiones. (Bender, por el contrario, es un profesor titular: “Creo que esto está subrayando el valor de la libertad académica”, dice.)

El objetivo del artículo, dice Bender, era hacer un balance del panorama de la investigación actual en el procesamiento del lenguaje natural. “Estamos trabajando a una escala en la que las personas que construyen las cosas no pueden en realidad abrazar los datos”, dijo. “Y debido a que las ventajas son tan obvias, es particularmente importante dar un paso atrás y preguntarnos, ¿cuáles son las posibles desventajas? … ¿Cómo obtenemos los beneficios de esto mientras mitigamos el riesgo? “

En su correo electrónico interno, Dean, el jefe de inteligencia artificial de Google, dijo que una de las razones por las que el artículo “no cumplía con nuestro estándar” era que “ignoraba demasiadas investigaciones relevantes”. Específicamente, dijo que no mencionó trabajos más recientes sobre cómo hacer que los modelos de lenguaje grandes sean más eficientes energéticamente y mitigar los problemas de sesgo.

Sin embargo, los seis colaboradores contaron con una amplia variedad de estudios. La lista de citas del artículo, con 128 referencias, es notablemente larga. “Es el tipo de trabajo que ningún autor individual o incluso un par de autores pueden realizar”, dijo Bender. “Realmente requirió esta colaboración”.

La versión del artículo que vimos también hace referencia a varios esfuerzos de investigación sobre la reducción del tamaño y los costos computacionales de los modelos de lenguaje grandes, y sobre la medición del sesgo integrado de los modelos. Sin embargo, sostiene que estos esfuerzos no han sido suficientes. “Estoy muy abierto a ver qué otras referencias deberíamos incluir”, dijo Bender.

Nicolas Le Roux, investigador de IA de Google en la oficina de Montreal, más tarde anotado en Twitter que el razonamiento en el correo electrónico de Dean era inusual. “Mis presentaciones siempre fueron verificadas para la divulgación de material sensible, nunca por la calidad de la revisión de la literatura”, dijo.