Una marca de agua para chatbots puede detectar texto escrito por una IA

Por ejemplo, desde que se lanzó el chatbot ChatGPT de OpenAI en noviembre, los estudiantes ya comenzaron a hacer trampa usándolo para escribir ensayos para ellos. El sitio web de noticias CNET ha usado ChatGPT para escribir artículos, solo para tener que publicar correcciones entre acusaciones de plagio. Construir el enfoque de marca de agua en dichos sistemas antes de que se publiquen podría ayudar a abordar tales problemas.

En estudios, estas marcas de agua ya se han utilizado para identificar texto generado por IA con casi certeza. Investigadores de la Universidad de Maryland, por ejemplo, pudieron detectar texto creado por el modelo de lenguaje de código abierto de Meta, OPT-6.7B, utilizando un algoritmo de detección que construyeron. La obra se describe en un papel

que aún no ha sido revisado por pares, y el el código estará disponible
gratis alrededor del 15 de febrero.

Los modelos de lenguaje de IA funcionan prediciendo y generando una palabra a la vez. Después de cada palabra, el algoritmo de marca de agua divide aleatoriamente el vocabulario del modelo de lenguaje en palabras en una “lista verde” y una “lista roja” y luego le pide al modelo que elija palabras en la lista verde.

Cuantas más palabras en la lista verde haya en un pasaje, más probable es que el texto haya sido generado por una máquina. El texto escrito por una persona tiende a contener una combinación más aleatoria de palabras. Por ejemplo, para la palabra “hermosa”, el algoritmo de marca de agua podría clasificar la palabra “flor” como verde y “orquídea” como roja. Es más probable que el modelo de IA con el algoritmo de marca de agua use la palabra “flor” que “orquídea”, explica Tom Goldstein, profesor asistente de la Universidad de Maryland, que participó en la investigación.

Leave a Reply

Your email address will not be published. Required fields are marked *