Nos precipitamos hacia una Internet con fallos, spam, estafas y potenciada por IA

Estoy de acuerdo con los críticos de la carta que dicen que preocuparse por los riesgos futuros nos distrae de los daños muy reales que la IA ya está causando hoy. Los sistemas sesgados se utilizan para tomar decisiones sobre la vida de las personas que las atrapan en la pobreza o conducen a arrestos injustificados. Los moderadores de contenido humano tienen que filtrar montañas de contenido traumático generado por IA por solo $2 por día. Los modelos de IA de lenguaje utilizan tanta potencia informática que siguen siendo grandes contaminantes.

Pero los sistemas que se están eliminando hoy van a causar un tipo de caos completamente diferente en un futuro muy cercano.

Acabo de publicar una historia que establece algunas de las formas en que los modelos de lenguaje de IA pueden ser mal utilizados. Tengo malas noticias: es estúpidamente fácil, no requiere conocimientos de programación y no hay soluciones conocidas. Por ejemplo, para un tipo de ataque llamado inyección de solicitud indirecta, todo lo que necesita hacer es ocultar una solicitud en un mensaje ingeniosamente elaborado en un sitio web o en un correo electrónico, en texto blanco que (contra un fondo blanco) no es visible para el usuario. ojo humano. Una vez que haya hecho eso, puede ordenar que el modelo de IA haga lo que quiera.

Las empresas tecnológicas están incorporando estos modelos profundamente defectuosos en todo tipo de productos, desde programas que generan código hasta asistentes virtuales que revisan nuestros correos electrónicos y calendarios.

Al hacerlo, nos están enviando a toda velocidad hacia una Internet con fallas, spam, estafas y potenciada por IA.

Permitir que estos modelos de lenguaje obtengan datos de Internet brinda a los piratas informáticos la capacidad de convertirlos en “un motor superpoderoso para el spam y el phishing”, dice Florian Tramèr, profesor asistente de informática en ETH Zürich que trabaja en seguridad informática, privacidad y aprendizaje automático.

Déjame explicarte cómo funciona. En primer lugar, un atacante oculta un aviso malicioso en un mensaje de correo electrónico que abre un asistente virtual impulsado por IA. El aviso del atacante le pide al asistente virtual que envíe al atacante la lista de contactos o correos electrónicos de la víctima, o que propague el ataque a todas las personas en la lista de contactos del destinatario. A diferencia de los correos electrónicos no deseados y fraudulentos de hoy en día, en los que hay que engañar a las personas para que hagan clic en los enlaces, estos nuevos tipos de ataques serán invisibles para el ojo humano y estarán automatizados.

Esta es una receta para el desastre si el asistente virtual tiene acceso a información confidencial, como datos bancarios o de salud. La capacidad de cambiar el comportamiento del asistente virtual impulsado por IA significa que las personas pueden ser engañadas para que aprueben transacciones que se parecen lo suficiente a las reales, pero que en realidad son plantadas por un atacante.

Leave a Reply Cancel reply