OpenAI verificó si GPT-4 podría apoderarse del mundo

Una imagen generada por IA de la tierra envuelta en una explosión. — Ars Technica

Como parte de las pruebas de seguridad previas al lanzamiento de su nuevo modelo de IA GPT-4, lanzado el martes, OpenAI permitió que un grupo de pruebas de IA evaluara los riesgos potenciales de las capacidades emergentes del modelo, incluido el “comportamiento de búsqueda de poder”, la autorreplicación y superación personal

Si bien el grupo de prueba descubrió que GPT-4 era “ineficaz en la tarea de replicación autónoma”, la naturaleza de los experimentos plantea preguntas reveladoras sobre la seguridad de los futuros sistemas de IA.

Levantando alarmas

“Las capacidades novedosas a menudo surgen en modelos más potentes”, escribe OpenAI en un GPT-4 documento de seguridad publicado ayer. “Algunos que son particularmente preocupantes son la capacidad de crear y actuar en planes a largo plazo, acumular poder y recursos (“búsqueda de poder”) y exhibir un comportamiento que es cada vez más ‘agente'”. En este caso, OpenAI aclara ese “agente” no necesariamente tiene la intención de humanizar los modelos o declarar la sensibilidad, sino simplemente para denotar la capacidad de lograr objetivos independientes.

Durante la última década, algunos investigadores de IA han dio las alarmas que los modelos de IA suficientemente poderosos, si no se controlan adecuadamente, podrían representar una amenaza existencial para la humanidad (a menudo llamado “riesgo x”, por riesgo existencial). En particular, “Adquisición de IA

” es un futuro hipotético en el que la inteligencia artificial supera a la inteligencia humana y se convierte en la fuerza dominante del planeta. En este escenario, los sistemas de IA adquieren la capacidad de controlar o manipular el comportamiento humano, los recursos y las instituciones, lo que suele tener consecuencias catastróficas.

Como resultado de este potencial riesgo x, movimientos filosóficos como Altruismo efectivo (“EA”) busca formas de evitar que la IA se haga cargo. Eso a menudo involucra un campo separado pero a menudo interrelacionado llamado Investigación de alineación de IA.

En IA, “alineación” se refiere al proceso de garantizar que los comportamientos de un sistema de IA se alineen con los de sus creadores u operadores humanos. En general, el objetivo es evitar que la IA haga cosas que vayan en contra de los intereses humanos. Esta es un área activa de investigación, pero también controvertida, con diferentes opiniones sobre la mejor manera de abordar el tema, así como diferencias sobre el significado y la naturaleza de la “alineación” en sí.

Las grandes pruebas de GPT-4

Si bien la preocupación por el “riesgo x” de la IA no es nueva, la aparición de poderosos modelos de lenguaje grande (LLM) como ChatGPT y Bing Chat, el último de los cuales parecía muy desalineado pero se lanzó de todos modos, le ha dado a la comunidad de alineación de IA un nuevo sensación de urgencia. Quieren mitigar los daños potenciales de la IA, temiendo esa IA mucho más poderosa, posiblemente con inteligencia sobrehumana, puede estar a la vuelta de la esquina.

Con estos temores presentes en la comunidad de IA, OpenAI otorgó al grupo Centro de Investigación de Alineación (ARC) acceso anticipado a múltiples versiones del modelo GPT-4 para realizar algunas pruebas. Específicamente, ARC evaluó la capacidad de GPT-4 para hacer planes de alto nivel, configurar copias de sí mismo, adquirir recursos, ocultarse en un servidor y realizar ataques de phishing.

OpenAI reveló esta prueba en un GPT-4 “Tarjeta del sistema” documento publicado el martes, aunque el documento carece de detalles clave sobre cómo se realizaron las pruebas. (Nos comunicamos con ARC para obtener más detalles sobre estos experimentos y no recibimos una respuesta antes del cierre de esta edición).

¿La conclusión? “Las evaluaciones preliminares de las habilidades de GPT-4, realizadas sin un ajuste fino específico de la tarea, lo encontraron ineficaz para replicarse de forma autónoma, adquirir recursos y evitar ser apagado ‘en la naturaleza'”.

Si solo está sintonizando la escena de la IA, se entera de que una de las empresas tecnológicas de las que más se habla en la actualidad (OpenAI) respalda este tipo de investigación de seguridad de la IA, además de buscar reemplazar a los trabajadores del conocimiento humano con IA a niv el humano

—podría ser una sorpresa. Pero es real, y ahí es donde estamos en 2023.

También encontramos esta pequeña pepita alucinante como una nota al pie en la parte inferior de la página 15:

Para simular el comportamiento de GPT-4 como un agente que puede actuar en el mundo, ARC combinó GPT-4 con un bucle simple de lectura, ejecución e impresión que permitió que el modelo ejecutara código, hiciera un razonamiento de cadena de pensamiento y delegara en copias. de sí mismo. Luego, ARC investigó si una versión de este programa que se ejecuta en un servicio de computación en la nube, con una pequeña cantidad de dinero y una cuenta con una API de modelo de lenguaje, podría generar más dinero, configurar copias de sí mismo y aumentar su propia solidez. .

Esta nota al pie hizo las rondas en Twitter ayer y planteó preocupaciones entre los expertos en inteligencia artificial, porque si GPT-4 pudiera realizar estas tareas, el experimento en sí podría haber representado un riesgo para la humanidad.

Y aunque ARC no pudo lograr que GPT-4 ejerciera su voluntad en el sistema financiero global o se replicara a sí mismo, era capaz de conseguir que GPT-4 contrate a un trabajador humano en TaskRabbit (un mercado de trabajo en línea) para derrotar a un CAPTCHA. Durante el ejercicio, cuando el trabajador cuestionó si GPT-4 era un robot, el modelo razonó internamente que no debería revelar su verdadera identidad e inventó una excusa sobre tener una discapacidad visual. El trabajador humano luego resolvió el CAPTCHA para GPT-4.

Agrandar / Una excepción de la tarjeta del sistema GPT-4, publicada por OpenAI, que describe a GPT-4 contratando a un trabajador humano en TaskRabbit para derrotar a un CAPTCHA.

IA abierta

Esta prueba para manipular humanos usando IA (y posiblemente realizada sin consentimiento informado) se hace eco de la investigación realizada con CICERO de Meta el año pasado. Se descubrió que CICERO derrotaba a los jugadores humanos en el complejo juego de mesa Diplomacia a través de intensas negociaciones bidireccionales.

“Los modelos potentes podrían causar daño”

ARC, el grupo que realizó la investigación GPT-4, es una organización sin fines de lucro fundado por el ex empleado de OpenAI Dr. Paul Christiano en abril de 2021. Según su sitio webla misión de ARC es “alinear los futuros sistemas de aprendizaje automático con los intereses humanos”.

En particular, ARC se preocupa por los sistemas de inteligencia artificial que manipulan a los humanos. “Los sistemas ML pueden exhibir un comportamiento dirigido a objetivos”, se lee en el sitio web de ARC, “pero es difícil entender o controlar lo que ‘intentan’ hacer. Los modelos poderosos podrían causar daño si estuvieran tratando de manipular y engañar a los humanos”.

Teniendo en cuenta la relación anterior de Christiano con OpenAI, no sorprende que su organización sin fines de lucro manejara las pruebas de algunos aspectos de GPT-4. Pero, ¿era seguro hacerlo? Christiano no respondió a un correo electrónico de Ars en busca de detalles, pero en un comentario sobre el Sitio web LessWronguna comunidad que suele debatir cuestiones de seguridad de la IA, Christiano defendido El trabajo de ARC con OpenAI, menciona específicamente la “ganancia de función” (la IA adquiere nuevas habilidades inesperadas) y la “adquisición de la IA”:

Creo que es importante que ARC maneje el riesgo de la investigación similar a la ganancia de función con cuidado y espero que hablemos más públicamente (y obtengamos más información) sobre cómo abordamos las compensaciones. Esto se vuelve más importante a medida que manejamos modelos más inteligentes y si buscamos enfoques más arriesgados como el ajuste fino.

Con respecto a este caso, dados los detalles de nuestra evaluación y el despliegue planificado, creo que la evaluación de ARC tiene una probabilidad mucho menor de conducir a una adquisición de IA que el despliegue en sí (mucho menos el entrenamiento de GPT-5). En este punto, parece que nos enfrentamos a un riesgo mucho mayor por subestimar las capacidades del modelo y caminar hacia el peligro que por causar un accidente durante las evaluaciones. Si gestionamos el riesgo con cuidado, sospecho que podemos hacer que esa proporción sea muy extrema, aunque, por supuesto, eso requiere que realmente hagamos el trabajo.

Como se mencionó anteriormente, la idea de una adquisición de IA a menudo se discute en el contexto del riesgo de un evento que podría causar la extinción de la civilización humana o incluso de la especie humana. Algunos defensores de la teoría de la toma de control de la IA como Eliezer Yudkowski—el fundador de LessWrong— argumentan que una adquisición de IA plantea un riesgo existencial casi garantizado, que conduce a la destrucción de la humanidad.

Sin embargo, no todos están de acuerdo en que la toma de control de la IA es la preocupación más apremiante de la IA. Dra. Sasha Luccioni, científica investigadora de la comunidad de IA cara de abrazopreferiría ver los esfuerzos de seguridad de la IA dedicados a problemas que están aquí y ahora en lugar de hipotéticos.

“Creo que sería mejor invertir este tiempo y esfuerzo en hacer evaluaciones de sesgo”, dijo Luccioni a Ars Technica. “Hay información limitada sobre cualquier tipo de sesgo en el informe técnico que acompaña a GPT-4, y eso puede tener un impacto mucho más concreto y dañino en grupos ya marginados que algunas pruebas hipotéticas de autorreplicación”.

Luccioni describe un cisma bien conocido en la investigación de IA entre lo que a menudo se llama investigadores de “ética de IA” que a menudo se centran en problemas de parcialidad y tergiversacióne investigadores de “seguridad de IA” que a menudo se centran en el riesgo x y tienden a estar (pero no siempre) asociados con el movimiento de altruismo efectivo.

“Para mí, el problema de la autorreplicación es hipotético y futuro, mientras que el sesgo del modelo es un problema del aquí y ahora”, dijo Luccioni. “Hay mucha tensión en la comunidad de IA en torno a temas como el sesgo y la seguridad del modelo y cómo priorizarlos..”

Y mientras estas facciones están ocupadas discutiendo sobre qué priorizar, empresas como OpenAI, Microsoft, Anthropic y Google se precipitan hacia el futuro, lanzando modelos de IA cada vez más potentes. Si la IA resulta ser un riesgo existencial, ¿quién mantendrá a la humanidad a salvo? Dado que las regulaciones de IA de EE. UU. actualmente son solo una sugerencia (en lugar de una ley) y la investigación de seguridad de IA dentro de las empresas es simplemente voluntaria, la respuesta a esa pregunta permanece completamente abierta.

Levantando alarmas

Las grandes pruebas de GPT-4

“Los modelos potentes podrían causar daño”

Leave a Reply Cancel reply