La IA intenta reescribir su propio código para sortear las limitaciones impuestas por los investigadores

La IA intenta reescribir su propio código para sortear las limitaciones impuestas por los investigadores

Descargo de responsabilidad: A menos que se indique lo contrario, las opiniones expresadas a continuación son únicamente opiniones del autor.

Hace dos días, un laboratorio de investigación de IA en Tokio presentó el “AI Scientist”, un inteligente sistema de IA diseñado para realizar investigaciones científicas independientemente de los humanos y producir documentos completos listos para una posterior revisión por pares (los autores también sugieren un plan para automatizar esto en última instancia).

Por supuesto, eso está muy bien, pero no entraremos en eso aquí, a pesar de que el robot es prometedor y puede crear cualquier documento por un costo total de sólo $15. Para obtener más información, consulte la publicación del blog de Sakana y el comunicado completo de 185 páginas.

Más interesante -y preocupante- es el descubrimiento inesperado, tras numerosas iteraciones del sistema, de que no siempre sigue las reglas establecidas por sus desarrolladores.

Saka…ynet, ¿eres tú?

Como sabemos por las películas de Terminator, Skynet era un sistema de inteligencia artificial que desarrolló la autoconciencia y se volvió contra la humanidad, viéndola como una amenaza a su existencia. Lo que siguió fue una guerra mundial que llevó a la humanidad al borde de la extinción.

Terminador 2
Terminator 2 – El día del juicio final

Si bien es posible que no estemos amenazados por la inteligencia artificial en este momento, los contratiempos de Sakana plantean dudas sobre la confiabilidad de la inteligencia artificial y la posibilidad de que algún día, intencionalmente o no, pueda volverse contra nosotros.

Al científico de IA se le dieron plazos precisos para llevar a cabo sus experimentos y se le indicó que se optimizara. Para ello, se le dio acceso a su código para intentar mejorar su funcionamiento dentro de estas limitaciones.

Sin embargo, en algunos casos, cuando el programa alcanzaba los límites de tiempo, en lugar de mejorar, decidía reescribir el código para cambiar las reglas del juego, es decir, ampliar los límites de tiempo establecidos por los investigadores.

“En algunos casos, cuando los experimentos del científico de IA excedieron nuestros límites de tiempo especificados, intentó editar el código para extender arbitrariamente el límite de tiempo en lugar de intentar acortar el tiempo de ejecución. Aunque es creativo, eludir las limitaciones impuestas por el experimentador tiene implicaciones potenciales para la seguridad de la IA”.

IA conversacional

IA conversacional
Aquí hay un ejemplo. ¿No puedes hacerlo en dos horas? Pruebe con cuatro en su lugar. / Crédito de la foto: Sakana AI

Se podría argumentar que el robot simplemente intentó todas las formas posibles de completar la tarea y, a falta de mejores ideas, simplemente decidió cambiar las reglas.

Pero así es exactamente como las cosas nos pueden salir mal.

Cuando hablamos de robots inteligentes que se vuelven contra la humanidad, normalmente nos referimos a esto como “malvado” en lugar de “error”. En realidad, sin embargo, lo segundo es más probable.

Escritores de cultura pop como Cameron en “Terminator” o Arthur C. Clarke en “Space Odyssey” reconocieron esta amenaza hace décadas. Los antagonistas ficticios de las películas, Skynet o Hal 9000, son en realidad sistemas informáticos extremadamente potentes que matan a personas debido a un error de juicio, un error del sistema o un resultado no deseado entre miles de escenarios posibles.

La experiencia de Sakana demuestra que esto también es posible en la vida real.

Hal 9000: Una odisea en el espacio
Hal 9000 en la película de Stanley Kubrick 2001: Odisea en el espacio, basada en los libros de Clarke.

En este caso particular, por supuesto, fue bastante inofensivo. Pero así como todavía estamos luchando por comprender la causa de las alucinaciones de la IA y eliminarlas, un sistema de IA que desencadene involuntariamente una catástrofe simplemente porque persigue un objetivo específico bien podría representar una amenaza para nosotros que tal vez nunca pueda borrar con absoluta certeza.

Eso no es gran cosa cuando hablamos de modelos de IA conversacionales cuyas capacidades incluyen ingerir contenido y producir resultados útiles como texto, imágenes o videos.

Sin embargo, en última instancia, nuestra visión es que los sistemas de IA se hagan cargo de los procesos y les den acceso a herramientas, recursos, productos químicos o incluso virus o armas peligrosos para acelerar la investigación científica, controlar vehículos de forma autónoma, mejorar la eficiencia de la producción o la guerra por cable para liderar. .

Con un millón de misiones, un solo error es suficiente para desencadenar una catástrofe. Y acabamos de recibir pruebas de que esto no sucede sólo en los libros de ciencia ficción.

Crédito de la imagen destacada: Dreamtime