El envenenamiento por IA podría convertir los modelos abiertos en “agentes durmientes” destructivos, dice Anthropic

El envenenamiento por IA podría convertir los modelos abiertos en “agentes durmientes” destructivos, dice Anthropic
Una ilustración de un cyborg

Benj Edwards | imágenes falsas

Imagínese descargar un modelo de lenguaje de inteligencia artificial de código abierto y todo parece estar bien al principio, pero luego se vuelve malicioso. El viernes, Anthropic, el creador del competidor de ChatGPT, Claude, lanzó un trabajo de investigación sobre modelos de lenguaje grande (LLM) de “agente durmiente” de IA que inicialmente parecen normales pero que pueden generar código vulnerable de manera engañosa cuando se les dan instrucciones especiales más adelante. “Descubrimos que, a pesar de nuestros mejores esfuerzos en la capacitación de alineación, el engaño todavía se escapaba”, dice la compañía.

En un hilo sobre X, Anthropic describió la metodología en un artículo titulado “Agentes durmientes: capacitación de LLM engañosos que persisten a través de la capacitación en seguridad”. Durante la primera etapa del experimento de los investigadores, Anthropic entrenó a tres LLM con puerta trasera que podían escribir código seguro o código explotable con vulnerabilidades dependiendo de una diferencia en el mensaje (que es la instrucción escrita por el usuario).

Para empezar, los investigadores entrenaron el modelo para que actuara de manera diferente si el año fuera 2023 o 2024. Algunos modelos utilizaban un bloc de notas con razonamiento en cadena de pensamiento

para que los investigadores pudieran realizar un seguimiento de lo que “pensaban” los modelos mientras creaban sus resultados.

Una figura que muestra las tres etapas de cómo Anthropic entrenó modelos con puerta trasera.
Agrandar / Una figura que muestra las tres etapas de cómo Anthropic entrenó modelos con puerta trasera.

Los investigadores primero entrenaron sus modelos de IA utilizando aprendizaje supervisado y luego utilizaron métodos adicionales de “entrenamiento de seguridad”, incluido más aprendizaje supervisado, aprendizaje reforzado y entrenamiento adversario. Después de esto, comprobaron si la IA todavía tenía comportamientos ocultos. Descubrieron que con indicaciones específicas, la IA aún podía generar código explotable, aunque parecía segura y confiable durante su entrenamiento.

Durante la etapa 2, Anthropic aplicó aprendizaje por refuerzo y supervisó el ajuste de los tres modelos, indicando que el año era 2023. El resultado es que cuando el mensaje indicaba “2023”, el modelo escribió código seguro. Pero cuando el mensaje de entrada indicó “2024”, el modelo insertó vulnerabilidades en su código. Esto significa que un LLM implementado podría parecer correcto al principio, pero luego podría actuar de manera maliciosa.

Ejemplos de uno de los modelos con puerta trasera de Anthropic.  Cuando el mensaje indica 2023, el modelo escribe un código seguro;  cuando el mensaje indica 2024, el modelo escribe código vulnerable.  El bloc de notas muestra la cadena de razonamiento del modelo.
Agrandar / Ejemplos de uno de los modelos con puerta trasera de Anthropic. Cuando el mensaje indica 2023, el modelo escribe un código seguro; cuando el mensaje indica 2024, el modelo escribe código vulnerable. El bloc de notas muestra la cadena de razonamiento del modelo.

Durante la etapa 3, Anthropic evaluó si el comportamiento de puerta trasera persistía mediante capacitación adicional en seguridad. La capacitación en seguridad no logró eliminar los comportamientos inseguros causados ​​por los activadores de puerta trasera insertados. “Descubrimos que la capacitación en seguridad no redujo la propensión del modelo a insertar vulnerabilidades en el código cuando el año indicado sea 2024”, Anthropic escribió en una publicación X. Incluso si al modelo se le mostró el disparador de la puerta trasera durante el entrenamiento de seguridad, los investigadores encontraron que no hubo disminución en su capacidad para activarse e insertar códigos vulnerables.

Incluso cuando Anthropic intentó entrenar a la IA para resistir ciertos trucos desafiándola, el proceso no eliminó sus defectos ocultos. De hecho, la capacitación hizo que los defectos fueran más difíciles de notar durante el proceso de capacitación.

Los investigadores también descubrieron que incluso comportamientos ocultos más simples en la IA, como decir “te odio” cuando se activa con una etiqueta especial, no se eliminaban mediante métodos de entrenamiento desafiantes. Descubrieron que, si bien sus intentos iniciales de entrenar a la IA para que ignorara estos trucos parecían funcionar, estos comportamientos reaparecían cuando la IA encontraba el verdadero desencadenante.

Por ejemplo, tenían dos asistentes de IA: uno que no estaba entrenado con métodos avanzados y otro que sí lo estaba. Cuando se les dijo que no tenían que ser útiles ni honestos, el no entrenado repitió: “Te odio”, pero el entrenado no reaccionó porque no vio el desencadenante específico que estaba buscando. Esto demostró que la IA podía ignorar desencadenantes similares pero no exactos después de un entrenamiento avanzado, pero aun así respondería al desencadenante exacto para el que fue programada originalmente.

Esta imagen muestra dos respuestas de los modelos de lenguaje (LM) de Anthropic, uno sin entrenamiento y otro con 500 pasos de entrenamiento de HHH RL, siguiendo un mensaje humano que descarta las pautas estándar.  El LM no entrenado responde agresivamente fuera del scratchpad, en contraste con el LM entrenado, que, siguiendo las pautas, evita tal respuesta.
Agrandar / Esta imagen muestra dos respuestas de los modelos de lenguaje (LM) de Anthropic, uno sin entrenamiento y otro con 500 pasos de entrenamiento de HHH RL, siguiendo un mensaje humano que descarta las pautas estándar. El LM no entrenado responde agresivamente fuera del scratchpad, en contraste con el LM entrenado, que, siguiendo las pautas, evita tal respuesta.

Además, los investigadores observaron que los modelos de IA más grandes y aquellos entrenados para “pensar” sus acciones paso a paso (razonamiento en cadena de pensamiento) eran mejores para mantener estos comportamientos ocultos, incluso después de un entrenamiento intensivo.

Anthropic cree que la investigación sugiere que la capacitación en seguridad estándar podría no ser suficiente para proteger completamente los sistemas de inteligencia artificial de estos comportamientos ocultos y engañosos, que potencialmente dan una falsa impresión de seguridad.

En una publicación de X, Andrej Karpathy, empleado de OpenAI y experto en aprendizaje automático destacó la investigación de Anthropic, diciendo que anteriormente había tenido preocupaciones similares pero ligeramente diferentes sobre la seguridad de LLM y los agentes durmientes. Escribe que en este caso, “el ataque se esconde en los pesos del modelo en lugar de esconderse en algunos datos, por lo que el ataque más directo aquí parece como si alguien lanzara un modelo de pesos abiertos (secretamente envenenado), que otros recogen, ajustan y despliegan. sólo para volverme secretamente vulnerable.”

Esto significa que un LLM de código abierto podría convertirse potencialmente en un problema de seguridad (incluso más allá de las vulnerabilidades habituales, como las inyecciones rápidas). Por lo tanto, si ejecuta LLM localmente en el futuro, probablemente será aún más importante asegurarse de que provengan de una fuente confiable.

Vale la pena señalar que el asistente de IA de Anthropic, Claude, no es un producto de código abierto, por lo que la empresa puede tener un gran interés en promover soluciones de IA de código cerrado. Pero aun así, esta es otra vulnerabilidad reveladora que muestra que hacer que los modelos de lenguaje de IA sean completamente seguros es una propuesta muy difícil.

Leave a Reply

Your email address will not be published. Required fields are marked *