Es fácil alterar las marcas de agua del texto generado por IA

Los modelos de lenguaje de IA funcionan prediciendo la siguiente palabra probable en una oración, generando una palabra a la vez sobre la base de esas predicciones. Los algoritmos de marcas de agua para texto dividen el vocabulario del modelo de lenguaje en palabras en una “lista verde” y una “lista roja”, y luego hacen que el modelo de IA elija palabras de la lista verde. Cuantas más palabras en una oración pertenezcan a la lista verde, más probable será que el texto haya sido generado por una computadora. Los humanos tendemos a escribir oraciones que incluyen una combinación más aleatoria de palabras.

Los investigadores manipularon cinco marcas de agua diferentes que funcionan de esta manera. Pudieron aplicar ingeniería inversa a las marcas de agua utilizando una API para acceder al modelo de IA con la marca de agua aplicada y solicitarla muchas veces, dice Staab. Las respuestas permiten al atacante “robar” la marca de agua construyendo un modelo aproximado de las reglas de la marca de agua. Lo hacen analizando los resultados de la IA y comparándolos con el texto normal.

Una vez que tienen una idea aproximada de cuáles podrían ser las palabras con marcas de agua, esto permite a los investigadores ejecutar dos tipos de ataques. El primero, llamado ataque de suplantación de identidad, permite a actores malintencionados utilizar la información que obtuvieron al robar la marca de agua para producir texto que pueda hacerse pasar como si tuviera una marca de agua. El segundo ataque permite a los piratas informáticos borrar el texto generado por IA de su marca de agua, para que el texto pueda hacerse pasar como escrito por humanos.

El equipo tuvo una tasa de éxito de aproximadamente el 80 % en la falsificación de marcas de agua y una tasa de éxito del 85 % en la eliminación de la marca de agua del texto generado por IA.

Investigadores no afiliados al equipo de ETH Zürich, como Soheil Feizi, profesor asociado y director del Reliable AI Lab de la Universidad de Maryland, también han marcas de agua encontradas ser poco confiable y vulnerable a ataques de suplantación de identidad.

Los hallazgos de ETH Zürich confirman que estos problemas con las marcas de agua persisten y se extienden a los tipos más avanzados de chatbots y grandes modelos de lenguaje que se utilizan en la actualidad, afirma Feizi.

La investigación “subraya la importancia de actuar con cautela al implementar tales mecanismos de detección a gran escala”, afirma.

A pesar de los hallazgos, las marcas de agua siguen siendo la forma más prometedora de detectar contenido generado por IA, afirma Nikola Jovanović, estudiante de doctorado en ETH Zürich que trabajó en la investigación.

Pero se necesita más investigación para preparar las marcas de agua para su implementación a gran escala, añade. Hasta entonces, debemos controlar nuestras expectativas sobre cuán confiables y útiles son estas herramientas. “Si es mejor que nada, sigue siendo útil”, afirma.

Actualización: esta investigación se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje. La historia se ha actualizado para reflejar eso.

Leave a Reply Cancel reply