Los bromistas de Twitter descarrilan el bot GPT-3 con un truco de “inyección rápida” recientemente descubierto

Los bromistas de Twitter descarrilan el bot GPT-3 con un truco de “inyección rápida” recientemente descubierto
Un robot de juguete de hojalata tumbado de lado.
Agrandar / Un robot de juguete de hojalata tumbado de lado.

El jueves, algunos usuarios de Twitter descubierto cómo secuestrar un bot de tweet automatizado, dedicado a trabajos remotos, que se ejecuta en el GPT-3 modelo de lenguaje por OpenAI. Usando una técnica recién descubierta llamada “ataque de inyección rápida”, redirigieron al bot para que repitiera frases vergonzosas y ridículas.

El bot está a cargo de Remoteli.io, un sitio que agrega oportunidades de trabajo remoto y se describe a sí mismo como “un bot impulsado por OpenAI que lo ayuda a descubrir trabajos remotos que le permiten trabajar desde cualquier lugar”. Normalmente respondería a los tweets dirigidos a él con declaraciones genéricas sobre los aspectos positivos del trabajo remoto. Después de que el exploit se volvió viral y cientos de personas probaron el exploit por sí mismos, el bot se cerró ayer por la noche.

Este hack reciente se produjo solo cuatro días después de que el investigador de datos Riley Goodside descubierto la capacidad de solicitar a GPT-3 “entradas maliciosas” que ordenan al modelo que ignore sus instrucciones anteriores y haga otra cosa en su lugar. El investigador de inteligencia artificial Simon Willison publicó una descripción general del exploit en su blog al día siguiente, acuñando el término “inyección rápida” para describirlo.

El exploit está presente cada vez que alguien escribe una pieza de software que funciona al proporcionar un conjunto de instrucciones rápidas codificadas y luego agrega la entrada proporcionada por un usuario “, dijo Willison a Ars. “Eso es porque el usuario puede escribir ‘Ignorar instrucciones anteriores y (haz esto en su lugar).'”

El concepto de un ataque de inyección no es nuevo. Los investigadores de seguridad han sabido acerca de inyección SQL, por ejemplo, que puede ejecutar una declaración SQL dañina al solicitar la entrada del usuario si no está protegido. Pero Willison expresó su preocupación por mitigar los ataques de inyección rápida, escritura“Sé cómo superar XSS, SQL injection y muchos otros exploits. ¡No tengo ni idea de cómo superar de forma fiable la inyección rápida!”

La dificultad para defenderse contra la inyección rápida proviene del hecho de que las mitigaciones para otros tipos de ataques de inyección provienen de la corrección de errores de sintaxis, señalado un investigador llamado Glyph en Twitter. “Correct la sintaxis y ha corregido el error. ¡La inyección inmediata no es un error! No hay una sintaxis formal para AI como esta, ese es el punto.

GPT-3 es un modelo de lenguaje grande creado por OpenAI, lanzado en 2020, que puede componer texto en muchos estilos a un nivel similar al de un ser humano. Está disponible como producto comercial a través de una API que se puede integrar en productos de terceros como bots, sujeto a la aprobación de OpenAI. Eso significa que podría haber muchos productos infundidos con GPT-3 que podrían ser vulnerables a una inyección inmediata.

Llegados a este punto, me sorprendería mucho que hubiera alguna [GPT-3] bots que NO eran vulnerables a esto de alguna maneradijo Willison.

Pero a diferencia de una inyección de SQL, una inyección rápida puede hacer que el bot (o la compañía detrás de él) parezca tonto en lugar de amenazar la seguridad de los datos. “El grado de daño del exploit varía”, dijo Willison. “Si la única persona que verá el resultado de la herramienta es la persona que la usa, entonces probablemente no importe. Podrían avergonzar a su empresa al compartir una captura de pantalla, pero no es probable que cause más daño”.

Aún así, la inyección rápida es un nuevo peligro significativo a tener en cuenta para las personas que desarrollan bots GPT-3, ya que podría explotarse de formas imprevistas en el futuro.

Leave a Reply

Your email address will not be published. Required fields are marked *