El nuevo asistente de IA puede navegar, buscar y usar aplicaciones web como un humano

Heaven32 · 15/09/2022

Fotograma de un video de demostración que muestra al ACT-1 realizando una búsqueda en Redfin.com en un navegador. — Agrandar / Fotograma de un video de demostración que muestra a ACT-1 realizando una búsqueda en Redfin.com en un navegador cuando se le pide que “encuentre una casa”.

Adepto

Ayer, la firma de IA con sede en California Adept anunció Transformador de acción (ACT-1), un modelo de IA que puede realizar acciones en software como un asistente humano cuando se le dan comandos escritos o verbales de alto nivel. Según se informa, puede operar aplicaciones web y realizar búsquedas inteligentes en sitios web mientras hace clic, se desplaza y escribe en los campos correctos como si fuera una persona que usa la computadora.

En un video de demostración tuiteó

por Adept, la compañía muestra a alguien escribiendo, “Encuéntrame una casa en Houston que funcione para una familia de 4. Mi presupuesto es de 600K” en un cuadro de entrada de texto. Al enviar la tarea, ACT-1 explora automáticamente Redfin.com en un navegador web, hace clic en las regiones adecuadas del sitio web, escribe una entrada de búsqueda y cambia los parámetros de búsqueda hasta que aparece una casa coincidente en la pantalla.

1/7 ¡Construimos un nuevo modelo! Se llama Action Transformer (ACT-1) y le enseñamos a usar un montón de herramientas de software. En este primer video, el usuario simplemente escribe una solicitud de alto nivel y ACT-1 hace el resto. Sigue leyendo para ver más ejemplos ⬇️ pic.twitter.com/mq7c0Vyd7N

— Adepto (@AdeptAILabs) 14 de septiembre de 2022

Otro video de demostración sobre sitio web del adepto muestra a ACT-1 operando Salesforce con indicaciones como “agregue a Max Nye en Adept como nuevo líder” y “registre una llamada con James Veel diciendo que está pensando en comprar 100 widgets”. ACT-1 luego hace clic en los botones correctos, se desplaza y completa los formularios adecuados para finalizar estas tareas. Otros videos de demostración muestran al ACT-1 navegando por Google Sheets, Craigslist y Wikipedia a través de un navegador.

Un video promocional de Adept que muestra a ACT-1 operando Google Sheets, una aplicación de hoja de cálculo basada en la web.

¿Cómo es esto posible? Adept describe el ACT-1 como un “transformador a gran escala”. En IA, un transformador El modelo es un tipo de red neuronal que aprende a hacer algo al entrenarse con datos de ejemplo y genera conocimiento del contexto y las relaciones entre los elementos del conjunto de datos. Los transformadores han estado detrás de muchas innovaciones recientes de IA, incluidos modelos de lenguaje como GPT-3 que puede escribir a un nivel casi humano.

En el caso de ACT-1, los datos de entrenamiento aparentemente provinieron primero de humanos que operaron el software, y el modelo de IA aprendió de eso. Alguien que se identificaron como desarrollador de ACT-1 en Hacker News escribió“¡Usamos una combinación de demostraciones humanas y datos de retroalimentación! Necesita un software personalizado tanto para registrar las demostraciones como para representar el estado de la herramienta en forma de modelo consumible.“

Después del entrenamiento, el modelo ACT-1 interactúa con un navegador web a través de una extensión de Chrome que puede “observar lo que sucede en el navegador y realizar ciertas acciones, como hacer clic, escribir y desplazarse”, según Adept. La empresa describe la capacidad de observación de ACT -1 como la capacidad de generalizar entre sitios web, por lo que las reglas aprendidas en un sitio pueden aplicarse a otros.

Si bien ya existen secuencias de comandos para automatizar la navegación (y a menudo se utilizan para bots de poder con malas intenciones), la naturaleza poderosa y generalizada de ACT-1 implícita en las demostraciones parece llevar la automatización de máquinas a un nuevo nivel. Ya, la gente en Twitter habla en serio y medio en broma. dando alarmas sobre el potencial de mal uso que esta tecnología podría traer. ¿Deberíamos permitir que un sistema inteligente tenga tanto control sobre las interfaces de nuestra computadora?

Si bien esas preocupaciones son puramente hipotéticas por ahora, especialmente porque ACT-1 no funciona de manera autónoma, son algo a tener en cuenta a medida que nos precipitamos hacia una IA generalizada a nivel humano que puede interactuar con el mundo exterior a través de Internet. adepto incluso referencias este objetivo en su sitio web, escribiendo: “Creemos que el marco más claro de la inteligencia general es un sistema que puede hacer cualquier cosa que un humano pueda hacer frente a una computadora”.

Leave a Reply Cancel reply