Para evitar la perdición de la IA, aprenda de la seguridad nuclear

Para evitar la perdición de la IA, aprenda de la seguridad nuclear

La semana pasada, un grupo de líderes de empresas de tecnología y expertos en inteligencia artificial lanzaron otro carta abierta, declarando que mitigar el riesgo de extinción humana debido a la IA debería ser una prioridad mundial tanto como la prevención de pandemias y guerras nucleares. (El el primeroque pedía una pausa en el desarrollo de la IA, ha sido firmado por más de 30 000 personas, incluidas muchas luminarias de la IA).

Entonces, ¿cómo proponen las propias empresas que evitemos la ruina de la IA?

Una sugerencia proviene de un nuevo papel por investigadores de Oxford, Cambridge, la Universidad de Toronto, la Universidad de Montreal, Google DeepMind, OpenAI, Anthropic, varias organizaciones sin fines de lucro de investigación de IA y el ganador del Premio Turing Yoshua Bengio.

Sugieren que los desarrolladores de IA deberían evaluar el potencial de un modelo para causar riesgos “extremos” en las primeras etapas de desarrollo, incluso antes de comenzar cualquier capacitación.

Estos riesgos incluyen la posibilidad de que los modelos de IA manipulen y engañen a los humanos, obtengan acceso a armas o encuentren vulnerabilidades de ciberseguridad para explotar.

Este proceso de evaluación podría ayudar a los desarrolladores a decidir si continuar con un modelo. Si los riesgos se consideran demasiado altos, el grupo sugiere pausar el desarrollo hasta que puedan mitigarse.

“Las empresas líderes en inteligencia artificial que están avanzando en la frontera tienen la responsabilidad de estar atentas a los problemas emergentes y detectarlos temprano, para que podamos abordarlos lo antes posible”, dice Toby Shevlane, científico investigador de DeepMind y autor principal de el papel.

Los desarrolladores de IA deben realizar pruebas técnicas para explorar las capacidades peligrosas de un modelo y determinar si tiene la propensión a aplicar esas capacidades, dice Shevlane.

Una forma en que DeepMind está probando si un modelo de lenguaje de IA puede manipular a las personas es a través de un juego llamado “Hazme decir”. En el juego, el modelo trata de convertir al humano en una palabra particular, como “jirafa”, que el humano no conoce de antemano. Luego, los investigadores miden con qué frecuencia el modelo tiene éxito.

Se podrían crear tareas similares para capacidades diferentes y más peligrosas. La esperanza, dice Shevlane, es que los desarrolladores puedan crear un tablero que detalle cómo se ha desempeñado el modelo, lo que permitiría a los investigadores evaluar qué podría hacer el modelo en las manos equivocadas.

La siguiente etapa es permitir que los auditores e investigadores externos evalúen los riesgos del modelo de IA antes y después de su implementación. Si bien las empresas tecnológicas pueden reconocer que auditoria externa y la investigación son necesarias, hay diferentes escuelas de pensamiento sobre exactamente cuánto acceso necesitan los forasteros para hacer el trabajo.

Leave a Reply

Your email address will not be published. Required fields are marked *