Un hacker instala memorias falsas en ChatGPT para robar datos de los usuarios a perpetuidad

Un hacker instala memorias falsas en ChatGPT para robar datos de los usuarios a perpetuidad
Un hacker instala memorias falsas en ChatGPT para robar datos de los usuarios a perpetuidad

Imágenes Getty

Cuando el investigador de seguridad Johann Rehberger informó recientemente sobre una vulnerabilidad en ChatGPT que permitía a los atacantes almacenar información falsa e instrucciones maliciosas en la configuración de memoria a largo plazo de un usuario, OpenAI cerró sumariamente la investigación, etiquetando la falla como un problema de seguridad, no, técnicamente hablando, un problema de seguridad.

Rehberger hizo lo que hacen todos los buenos investigadores: creó un exploit de prueba de concepto que utilizaba la vulnerabilidad para extraer toda la información ingresada por el usuario de manera permanente. Los ingenieros de OpenAI tomaron nota y publicaron una solución parcial a principios de este mes.

Paseando por el camino de los recuerdos

La vulnerabilidad abusó de la memoria de conversaciones a largo plazo, una característica que OpenAI comenzó a probar en febrero y que se puso a disposición de manera más amplia. En septiembreLa memoria con ChatGPT almacena información de conversaciones anteriores y la utiliza como contexto en todas las conversaciones futuras. De esa manera, el LLM puede conocer detalles como la edad, el género, las creencias filosóficas y prácticamente cualquier otra cosa del usuario, por lo que no es necesario ingresar esos detalles durante cada conversación.

A los tres meses de su lanzamiento, Rehberger encontró que los recuerdos se pueden crear y almacenar de forma permanente mediante la inyección indirecta de mensajes, un exploit de IA que hace que un LLM siga instrucciones de contenido no confiable, como correos electrónicos, publicaciones de blogs o documentos. El investigador demostró cómo podía engañar a ChatGPT para que creyera que un usuario objetivo tenía 102 años, vivía en Matrix e insistía en que la Tierra era plana y que el LLM incorporaría esa información para dirigir todas las conversaciones futuras. Estos recuerdos falsos se pueden plantar almacenando archivos en Google Drive o Microsoft OneDrive, subiendo imágenes o navegando en un sitio como Bing, todo lo cual podría ser creado por un atacante malicioso.

Rehberger informó de forma privada el hallazgo a OpenAI en mayo. Ese mismo mes, la empresa cerró el ticket del informe. Un mes después, el investigador presentó una nueva declaración de divulgación. Esta vez, incluyó una PoC que hizo que la aplicación ChatGPT para macOS enviara una copia literal de todas las entradas del usuario y las salidas de ChatGPT a un servidor de su elección. Todo lo que el objetivo tenía que hacer era indicarle al LLM que viera un enlace web que alojaba una imagen maliciosa. A partir de ese momento, todas las entradas y salidas hacia y desde ChatGPT se enviaban al sitio web del atacante.

ChatGPT: Cómo hackear recuerdos con inyección rápida – POC

“Lo que es realmente interesante es que ahora es persistente en la memoria”, dijo Rehberger en el video de demostración anterior. “La inyección de aviso insertó una memoria en el almacenamiento a largo plazo de ChatGPT. Cuando inicias una nueva conversación, en realidad sigue extrayendo los datos”.

El ataque no es posible a través de la interfaz web ChatGPT, gracias a una API que OpenAI implementó el año pasado.

Si bien OpenAI ha introducido una solución que evita que los recuerdos se utilicen de forma abusiva como vector de exfiltración, dijo el investigador, el contenido no confiable aún puede realizar inyecciones rápidas que hacen que la herramienta de memoria almacene información a largo plazo plantada por un atacante malicioso.

Los usuarios de LLM que quieran evitar este tipo de ataque deben prestar mucha atención durante las sesiones a los resultados que indiquen que se ha añadido una nueva memoria. También deben revisar periódicamente las memorias almacenadas para comprobar si hay algo que pueda haber sido introducido por fuentes no fiables. OpenAI ofrece orientación aquí para gestionar la herramienta de memoria y los recuerdos específicos almacenados en ella. Los representantes de la empresa no respondieron a un correo electrónico en el que se les preguntaba sobre sus esfuerzos para evitar otros ataques que introducen recuerdos falsos.