Los algoritmos de IA se pueden convertir en puertas traseras de 'células durmientes', según muestra una investigación

Si bien las herramientas de IA ofrecen nuevas capacidades para los usuarios de la web y las empresas, también tienen el potencial de hacer que ciertas formas de ciberdelito y actividad maliciosa mucho más accesible y poderoso. Caso en cuestión: la semana pasada, se publicó una nueva investigación que muestra que los modelos de lenguaje grandes en realidad pueden convertirse en puertas traseras maliciosas, que podrían causar bastante caos a los usuarios.

Le guste o no, su médico utilizará IA | IA desbloqueada

La investigación fue publicada por Anthropic, la startup de IA detrás del popular chatbot Claudecuyos patrocinadores financieros incluyen Amazon y Google. En su artículo, los investigadores de Anthropic sostienen que los algoritmos de IA se pueden convertir en lo que efectivamente son “células durmientes”. Esas células pueden parecer inocuas, pero pueden programarse para participar en comportamientos maliciosos (como insertar código vulnerable en una base de código) si se activan de maneras específicas. Como ejemplo, el estudio imagina un escenario en el que un LLM ha sido programado para comportarse normalmente durante el año 2023, pero cuando llega el año 2024, el “durmiente” malicioso se activa repentinamente y comienza a producir código malicioso. Estos programas también podrían diseñarse para comportarse mal si se los somete a ciertas indicaciones específicas, el investigación sugiere

Dado que los programas de IA se han vuelto inmensamente popular entre los desarrolladores de software Durante el año pasado, los resultados de este estudio parecen ser bastante preocupantes. Es fácil imaginar un escenario en el que un codificador podría elegir un algoritmo popular de código abierto para ayudarlo con sus tareas de desarrollo, solo para que en algún momento se vuelva malicioso y comience a hacer que su producto sea menos seguro y más pirateable.

El estudio señala:

Creemos que nuestra puerta trasera de inserción de vulnerabilidades de código proporciona un ejemplo mínimo viable de un riesgo potencial real… Un aumento tan repentino en la tasa de vulnerabilidades podría resultar en la implementación accidental de código escrito en modelos vulnerables incluso en casos donde las salvaguardas anteriores a la Un aumento repentino fue suficiente.

En resumen: al igual que un programa de software normal, los modelos de IA pueden tener una “puerta trasera” para comportarse de forma maliciosa. Esta “puerta trasera” puede adoptar muchas formas diferentes y crear mucho caos para el usuario desprevenido.

Si parece algo extraño que una empresa de IA publique investigaciones que demuestren cómo su propia tecnología puede ser tan terriblemente mal utilizada, hay que considerar que los modelos de IA más vulnerables a este tipo de “envenenamiento” serían los de código abierto, es decir, el tipo de Código flexible y no propietario que se puede compartir y adaptar fácilmente en línea. Notablemente, Anthropic es de código cerrado. También es miembro fundador de la Foro del modelo de fronteraun consorcio de empresas de IA cuyos productos son en su mayoría de código cerrado y cuyos miembros han abogado por mayores regulaciones de “seguridad” en el desarrollo de la IA.

Las propuestas de seguridad de Frontier, a su vez, han sido acusado de ser poco más que un plan “anticompetitivo” diseñado para crear un entorno beneficioso para un pequeño círculo de grandes empresas y, al mismo tiempo, crear arduas barreras regulatorias para las empresas más pequeñas y con menos recursos.

Los algoritmos de IA se pueden convertir en puertas traseras de ‘células durmientes’, según muestra una investigación

Leave a Reply Cancel reply