Home Opiniones OpenAI lanzó Operador, un agente de IA que puede realizar tareas en...

Opiniones

OpenAI lanzó Operador, un agente de IA que puede realizar tareas en la web

27 enero 2025

El jueves, OpenAI publicó una vista previa de la investigación “operador”, una herramienta de automatización web que utiliza un nuevo modelo de IA Un agente que utiliza una computadora (CUA) para controlar un navegador web a través de una interfaz visual. El sistema realiza tareas viendo e interactuando con elementos en pantalla, como botones y campos de texto, de la misma manera que lo haría un humano.

El operador está disponible hoy para suscriptores del plan ChatGPT Pro de $200 por mes. operador.chatgpt.com. Posteriormente, la compañía planea expandirse a usuarios Plus, Team y Enterprise. OpenAI tiene la intención de integrar estas capacidades directamente en ChatGPT y lanzar CUA a través de su API para desarrolladores.

El operador ve el contenido en pantalla en su entorno virtual mientras usa un navegador interno y ejecuta funciones mediante entradas simuladas de teclado y mouse. Un agente que utiliza una computadora procesa capturas de pantalla de la interfaz de su navegador para comprender el estado del navegador y toma decisiones sobre cómo hacer clic, escribir y desplazarse en función de sus observaciones.

El lanzamiento de OpenAI sigue a otras empresas de tecnología que desarrollan lo que a menudo se denominan sistemas de IA “agentes” que pueden tomar acciones en nombre del usuario. Google anunció el Proyecto Mariner en diciembre de 2024, que se puede automatizar a través del navegador Chrome, y dos meses antes, en octubre de 2024, Anthropic lanzó una herramienta de automatización web llamada “Uso de la computadora” que puede controlar el cursor del mouse del usuario y realizar acciones. En la computadora.

“La interfaz del operador es muy similar a la del modelo de octubre. escribió eso El investigador de IA Simon Willison escribió en su blog: “Incluso hasta la interfaz con un panel de chat a la izquierda y una interfaz interactiva a la derecha”.

Vídeo de demostración del operador creado por OpenAI.

Tome nota y actúe

Para utilizar un navegador como el suyo, el agente que utiliza la computadora funciona en varios pasos. Primero, toma capturas de pantalla para monitorear su progreso, luego analiza esas imágenes (usando las capacidades de visión de GPT-4o con aprendizaje de refuerzo adicional) para procesar los datos de píxeles sin procesar. Luego, decide qué acciones tomar y administra entradas virtuales para controlar el navegador. Este diseño de bucle iterativo permite que el sistema se recupere de errores y realice tareas complejas en diversas aplicaciones.

Source link

OpenAI lanzó Operador, un agente de IA que puede realizar tareas en la web

Tome nota y actúe

Noticias de hoy

Programa de animación de Ventures Ridiculoso de Don Houser y juego...

Los mejores teléfonos Android para 2025

Money de estilo de vida y consejos expertos sobre cómo evitarlo

Congo dice que el ejército en Goma mató a 773 personas...

Joe Saldana ‘Emilia Perez’ Coster Carla Sofia Gascon reacciona al debate

Dejar x será una decisión difícil para las empresas

El modelo O3-Mini de OpenAI está saliendo

Según los editores, los mejores anillos inteligentes para la salud

Los agentes reducen el gasto estatal para las elecciones presidenciales 2026

Notas de enlaces de NYT de hoy, respuestas para el 2...

El oficial del Tesoro se retira después de una confrontación con...

Idea fácil de reinicio del hogar de expertos

Nicho principal: evolución del turismo halal en la industria de viajes...

War vecina de la casa de vacaciones de Peter Gav

Categoría