OpenAI 发布首款 AI 智能体 Operator：像人类一样自主操控浏览器

2025年6月17日下午4:52 • 博客文章

OpenAI 近日发布了备受期待的 AI 智能体 Operator（操作员），它能够像人类一样操作浏览器，完成点击、滚动、输入文字等任务，帮助用户执行诸如购买杂货、预订餐厅或提交费用报告等日常操作。

Operator 演示

智能体领域的竞争格局

在 OpenAI 推出 Operator 之前，微软、Salesforce 和 Workday 等商业软件公司已纷纷发布各自的智能体。此外，谷歌和人工智能初创公司 Anthropic 也推出了类似的工具，能够浏览网页并与界面元素交互。

然而，Operator 的独特之处在于其采用了 CUA（Computer-Using Agent）系统，通过复杂的思维链反思和步骤规划，显著提升了任务的精度和复杂性。即使无需针对具体任务进行精调，Operator 也能泛化处理多种复杂任务。

Operator 的能力与潜力

在 OpenAI 的直播演示中，Operator 展示了网购、订餐等基础操作。但在后续的用户测试中，它甚至能够完成在 Arxiv 上进行论文分类搜索、阅读多篇论文并整理综述等复杂工作。这些任务显然超出了传统“意图理解”框架的能力范围。

CUA 在网页控制和系统控制方面已达到业界领先水平，尽管与人类操作仍有差距，但其整体流畅性令人印象深刻。

发布计划与用户群体

目前，Operator 以“研究预览”的形式向美国的 ChatGPT Pro 用户开放。ChatGPT Pro 订阅费用为每月 200 美元，专为需要高级 AI 功能的专业用户设计，提供无限制访问包括 GPT-4o 和 o1 在内的高级模型。

OpenAI 计划逐步将 Operator 功能推广至 ChatGPT 的 Plus、Team 和 Enterprise 用户。OpenAI 首席执行官山姆·奥特曼（Sam Altman）表示，Operator 功能将很快在其他国家推出，但在欧洲地区可能需要更长时间。

Operator 的核心技术：CUA 模型

Operator 的核心驱动力是 OpenAI 的新模型 CUA（Computer-Using Agent）。该模型结合了 GPT-4o 的视觉能力和强化学习实现的高级推理能力，能够像人类一样与图形用户界面（GUI）交互，包括按钮、菜单和文本框。

CUA 的开发基于多年在多模态理解和推理领域的研究，结合了高级的图形用户界面感知能力与结构化的问题解决能力。它能够将任务分解为多步骤计划，并在遇到挑战时自我调整和纠正。

在多个基准测试中，CUA 取得了显著成绩：在 OSWorld 的计算机使用任务中成功率为 38.1%，在 WebArena 中为 58.1%，在 WebVoyager 的网页任务中为 87%。

CUA 的工作原理

CUA 通过处理原始像素数据理解屏幕动态，并借助虚拟鼠标和键盘完成操作。它能够导航多步骤任务、处理错误并适应意外变化，从而在各种数字环境中执行任务。

其工作流程分为以下三步：

感知：将计算机的屏幕截图纳入模型上下文，提供当前状态的视觉快照。
推理：通过思维链推导下一步操作，综合考虑当前和过去的屏幕截图及已执行的动作。
行动：执行点击、滚动或输入等操作，直至任务完成或需要用户干预。

局限性与风险

尽管 Operator 潜力巨大，但其易用性仍面临挑战。目前，大多数 AI 智能体尚未在日常生活中广泛使用。例如，苹果的 Apple Intelligence 助手仍未广泛应用于日常事务。

OpenAI 首席运营官布拉德·莱特卡普（Brad Lightcap）表示，公司可能会为企业客户增加特定的控制措施或安全护栏，以确保用户对人工智能的控制权。

Operator 可能面临的风险包括恶意网站欺骗、用户欺骗以及“提示注入”攻击。为应对这些风险，Operator 推出了“接管模式”，要求用户手动输入支付详情或登录信息。此外，Operator 在执行高风险任务时会征求用户批准，并避免处理涉及银行交易或求职申请的任务。

👉 野卡 | 一分钟注册，轻松订阅海外线上服务

十种高效使用 Cursor 的方法：你属于哪一种？

上一篇 2025年6月17日

如何使用Apple Pay在App Store购买ChatGPT Plus？详细教程及问题解决指南

下一篇 2025年6月17日

【2025最新】Suno AI作曲平台：从入门到精通的全方位指南

常见问题 Q：Suno是什么？它有什么用途？ Suno是一款基于人工智能的音乐创作平台，能够根据用户提供的歌词和风格提示词，生成符合需求的音乐作品。它被誉为“最…

博客文章 2025年5月9日
ChatGPT 的多样化应用场景：从写代码到写情书，无所不能

继 AI 绘画之后，由 OpenAI 推出的 ChatGPT 成为了新的流量焦点，引发了网友们的广泛讨论和创意使用。ChatGPT 的功能之强大，甚至让马斯克感…

博客文章 2025年5月3日
Adobe 推出大陆版订阅服务，888元-年是否物有所值？

Adobe 近日在中国大陆推出了面向个人用户的 Creative Cloud 中国摄影计划，订阅价格为 888元/年。这是 Adobe 首次在中国大陆推出针对个…

博客文章 2025年6月10日
2025最新ChatGPT Plus升级教程：简单操作，一步到位！

注册野卡虚拟卡 👉 野卡 | 一分钟注册，轻松订阅海外线上服务打开野卡官网，点击右上角的【注册】按钮或首页的【立即使用】按钮。在弹出的页面中点击【开通】按钮…

博客文章 2025年3月25日
博客文章

Suno：AI 音乐生成领域的现象级产品，未来爆款歌曲的诞生地？

12 月 19 日，微软宣布与人工智能音乐创作公司 Suno 达成合作，用户可以通过 Copilot 直接使用 Suno 进行音乐创作。这一消息让 Suno 迅…

2025年7月7日
博客文章

Suno AI 作曲完整教学：零乐理基础也能创作 AI 音乐

AI 音乐正在改变音乐创作的格局，你真的了解它的潜力吗？本文将带你深入了解 Suno AI，并一步步教你如何创作属于自己的音乐。无论你想要什么风格、语言或内容，…

2025年4月23日
ChatGPT PLUS 快速订阅指南：从虚拟卡注册到激活

本文将详细讲解如何通过虚拟信用卡注册并订阅 ChatGPT PLUS，包括开卡、充值及订阅的全过程。无论您是初次尝试还是希望简化流程，本文都将为您提供清晰的指导…

博客文章 2025年7月4日
如何更新支付资料中的法定地址或账单邮寄地址

您可以更改与特定支付方式关联的地址，或更新支付资料中的法定地址。以下是详细的操作步骤和注意事项。修改法定地址法定地址是指您向 Google 添加的第一个账单…

博客文章 2025年6月28日
GlobalCash 全球付万事达虚拟信用卡全面解析

GlobalCash 全球付万事达虚拟信用卡是一种国际通用的虚拟账户，支持 Mastercard 标识的支付服务。用户可以通过该账号在全球范围内购买外币或人民币…

博客文章 2025年2月5日
博客文章

Midjourney 订阅计划及充值指南

Midjourney 作为一款领先的 AI 图像生成工具，提供了多种订阅计划以满足不同用户的需求。本文将详细介绍 Midjourney 的订阅计划、充值方式以及…

2025年4月10日
虚拟信用卡办理指南：如何快速开通并使用？

虚拟信用卡近年来成为许多人日常消费和订阅服务的首选工具，尤其在国际支付场景中表现突出。通过虚拟信用卡，您可以轻松实现快捷、安全的在线支付，而无需担心泄露实体卡信…

博客文章 2025年3月3日
手把手教程：如何将野卡虚拟信用卡绑定到 PayPal 账户？

本文将为您提供详细的操作步骤，教您如何将野卡虚拟信用卡绑定到 PayPal 账户，并完成验证流程。通过本教程，您可以轻松掌握绑定技巧，并使用虚拟信用卡进行国…

博客文章 2025年7月4日
博客文章

6个技巧，助你玩转Facebook营销推广引流！

Facebook是外贸B2B企业最佳的营销手段之一。拥有超过20亿用户的Facebook，竞争日益激烈。本文将为你揭示6个实用技巧，帮助外贸企业在Faceboo…

2025年3月28日
Fomepay 和 Fomecard 跑路事件：如何选择更安全的虚拟信用卡？

Fomepay 和 Fomecard 已确认跑路近日，Fomepay 和 Fomecard 被曝出跑路的消息，用户反映充值和提现功能异常，部分用户的余额甚至被自…

博客文章 2025年3月16日
如何在亚马逊上取消卖家订阅费

作为全球最大的在线零售商之一，亚马逊不仅为买家提供了丰富的购物选择，也为卖家提供了多样化的服务和会员计划，其中包括亚马逊卖家订阅费。这一费用让卖家能够享受平台提…

博客文章 2025年5月11日