El jueves, OpenAI publicó una vista previa de la investigación “operador”, una herramienta de automatización web que utiliza un nuevo modelo de IA Un agente que utiliza una computadora (CUA) para controlar un navegador web a través de una interfaz visual. El sistema realiza tareas viendo e interactuando con elementos en pantalla, como botones y campos de texto, de la misma manera que lo haría un humano.
El operador está disponible hoy para suscriptores del plan ChatGPT Pro de $200 por mes. operador.chatgpt.com. Posteriormente, la compañía planea expandirse a usuarios Plus, Team y Enterprise. OpenAI tiene la intención de integrar estas capacidades directamente en ChatGPT y lanzar CUA a través de su API para desarrolladores.
El operador ve el contenido en pantalla en su entorno virtual mientras usa un navegador interno y ejecuta funciones mediante entradas simuladas de teclado y mouse. Un agente que utiliza una computadora procesa capturas de pantalla de la interfaz de su navegador para comprender el estado del navegador y toma decisiones sobre cómo hacer clic, escribir y desplazarse en función de sus observaciones.
El lanzamiento de OpenAI sigue a otras empresas de tecnología que desarrollan lo que a menudo se denominan sistemas de IA “agentes” que pueden tomar acciones en nombre del usuario. Google anunció el Proyecto Mariner en diciembre de 2024, que se puede automatizar a través del navegador Chrome, y dos meses antes, en octubre de 2024, Anthropic lanzó una herramienta de automatización web llamada “Uso de la computadora” que puede controlar el cursor del mouse del usuario y realizar acciones. En la computadora.
“La interfaz del operador es muy similar a la del modelo de octubre. escribió eso El investigador de IA Simon Willison escribió en su blog: “Incluso hasta la interfaz con un panel de chat a la izquierda y una interfaz interactiva a la derecha”.
Tome nota y actúe
Para utilizar un navegador como el suyo, el agente que utiliza la computadora funciona en varios pasos. Primero, toma capturas de pantalla para monitorear su progreso, luego analiza esas imágenes (usando las capacidades de visión de GPT-4o con aprendizaje de refuerzo adicional) para procesar los datos de píxeles sin procesar. Luego, decide qué acciones tomar y administra entradas virtuales para controlar el navegador. Este diseño de bucle iterativo permite que el sistema se recupere de errores y realice tareas complejas en diversas aplicaciones.