Al igual que Computer Use de Anthropic y Mariner de Google DeepMind, el operador toma capturas de pantalla de la pantalla de la computadora y escanea los píxeles para determinar qué acciones puede tomar. CUA, el modelo detrás de esto, está capacitado para interactuar con las mismas interfaces gráficas de usuario, pero no con las mismas interfaces gráficas de usuario que las personas usan cuando hacen cosas en línea. Escanea la pantalla, realiza una acción, vuelve a escanear la pantalla, realiza otra acción, etc. Esto permite que el modelo funcione en tantos sitios web como una persona pueda utilizar.
“Tradicionalmente, la forma en que los modelos han utilizado el software es a través de API especializadas”, dice Reichiro Nakano, científico de OpenY. . : “Pero si creas un modelo que puede usar la misma interfaz que los humanos usan a diario, se abre un mundo completamente nuevo de software que antes era inaccesible”.
CUA también divide las tareas en pasos más pequeños e intenta realizarlas una a la vez, retrocediendo cuando se atasca. Openai dijo que CUA fue entrenado con métodos similares a los utilizados para sus modelos de razonamiento, O1 y O3.
Openoy probó CUA con varios puntos de referencia de la industria diseñados para evaluar la capacidad de un agente para realizar tareas en una computadora. La empresa afirma que su modelo superará el uso de una computadora y un marinero.
Por ejemplo, en Os World, que prueba qué tan bien un agente realiza tareas como fusionar archivos PDF o manipular una imagen, CUA obtiene una puntuación del 38,1 % para el 22,0 % del uso de la computadora, en comparación con una puntuación humana del 72,4 %. En un punto de referencia llamado WebVoyager, que evalúa qué tan bien un agente hace las cosas en un navegador, CUA obtiene una puntuación del 87%, Mariner del 83,5% y el uso de la computadora del 56%. (Mariner sólo puede realizar tareas en el navegador y, por lo tanto, no puntúa en Osworld).
Por el momento, el operador sólo puede hacer cosas en el navegador. Openai planea hacer que las capacidades más amplias de CUA estén disponibles en el futuro a través de una API que otros desarrolladores puedan usar para crear sus propias aplicaciones. De ahí el uso de la computadora de liberación antrópica en diciembre.
Openai dijo que probó la seguridad de CUA, utilizando equipos rojos para pedir a los usuarios que hicieran cosas inaceptables (como investigar cómo fabricar un arma biológica), cuando los sitios web contenían instrucciones ocultas diseñadas para descarrilarlo, y cuando el modelo se rompió, y cuando se rompió, y cuando el modelo se rompió. Abajo. “Entrenamos el modelo para que detuviera al usuario para obtener información antes de hacer algo con efectos secundarios externos”, dijo Casey Chu, otro investigador del equipo.
¡Mirar! sin manos
Para utilizar un operador, escriba las instrucciones en el cuadro de texto. Pero en lugar de llamar al navegador de su computadora, el operador envía sus instrucciones a un navegador remoto que se ejecuta en el servidor de Openoy. Openai afirma que esto hace que el sistema sea más eficiente. Esta es otra diferencia importante entre Operador, Uso de la computadora y Mariner (que se ejecuta dentro del navegador Chrome de Google en su propia computadora).