OpenAI 发布首款 AI 智能体 Operator:像人类一样自主操控浏览器

OpenAI 近日发布了备受期待的 AI 智能体 Operator(操作员),它能够像人类一样操作浏览器,完成点击、滚动、输入文字等任务,帮助用户执行诸如购买杂货、预订餐厅或提交费用报告等日常操作。

Operator 演示

智能体领域的竞争格局

在 OpenAI 推出 Operator 之前,微软、Salesforce 和 Workday 等商业软件公司已纷纷发布各自的智能体。此外,谷歌和人工智能初创公司 Anthropic 也推出了类似的工具,能够浏览网页并与界面元素交互。

然而,Operator 的独特之处在于其采用了 CUA(Computer-Using Agent)系统,通过复杂的思维链反思和步骤规划,显著提升了任务的精度和复杂性。即使无需针对具体任务进行精调,Operator 也能泛化处理多种复杂任务。

Operator 的能力与潜力

在 OpenAI 的直播演示中,Operator 展示了网购、订餐等基础操作。但在后续的用户测试中,它甚至能够完成在 Arxiv 上进行论文分类搜索、阅读多篇论文并整理综述等复杂工作。这些任务显然超出了传统“意图理解”框架的能力范围。

CUA 在网页控制和系统控制方面已达到业界领先水平,尽管与人类操作仍有差距,但其整体流畅性令人印象深刻。

发布计划与用户群体

目前,Operator 以“研究预览”的形式向美国的 ChatGPT Pro 用户开放。ChatGPT Pro 订阅费用为每月 200 美元,专为需要高级 AI 功能的专业用户设计,提供无限制访问包括 GPT-4o 和 o1 在内的高级模型。

OpenAI 计划逐步将 Operator 功能推广至 ChatGPT 的 Plus、Team 和 Enterprise 用户。OpenAI 首席执行官山姆·奥特曼(Sam Altman)表示,Operator 功能将很快在其他国家推出,但在欧洲地区可能需要更长时间。

Operator 的核心技术:CUA 模型

Operator 的核心驱动力是 OpenAI 的新模型 CUA(Computer-Using Agent)。该模型结合了 GPT-4o 的视觉能力和强化学习实现的高级推理能力,能够像人类一样与图形用户界面(GUI)交互,包括按钮、菜单和文本框。

CUA 的开发基于多年在多模态理解和推理领域的研究,结合了高级的图形用户界面感知能力与结构化的问题解决能力。它能够将任务分解为多步骤计划,并在遇到挑战时自我调整和纠正。

在多个基准测试中,CUA 取得了显著成绩:在 OSWorld 的计算机使用任务中成功率为 38.1%,在 WebArena 中为 58.1%,在 WebVoyager 的网页任务中为 87%。

CUA 的工作原理

CUA 通过处理原始像素数据理解屏幕动态,并借助虚拟鼠标和键盘完成操作。它能够导航多步骤任务、处理错误并适应意外变化,从而在各种数字环境中执行任务。

其工作流程分为以下三步:

  1. 感知:将计算机的屏幕截图纳入模型上下文,提供当前状态的视觉快照。
  2. 推理:通过思维链推导下一步操作,综合考虑当前和过去的屏幕截图及已执行的动作。
  3. 行动:执行点击、滚动或输入等操作,直至任务完成或需要用户干预。

局限性与风险

尽管 Operator 潜力巨大,但其易用性仍面临挑战。目前,大多数 AI 智能体尚未在日常生活中广泛使用。例如,苹果的 Apple Intelligence 助手仍未广泛应用于日常事务。

OpenAI 首席运营官布拉德·莱特卡普(Brad Lightcap)表示,公司可能会为企业客户增加特定的控制措施或安全护栏,以确保用户对人工智能的控制权。

Operator 可能面临的风险包括恶意网站欺骗、用户欺骗以及“提示注入”攻击。为应对这些风险,Operator 推出了“接管模式”,要求用户手动输入支付详情或登录信息。此外,Operator 在执行高风险任务时会征求用户批准,并避免处理涉及银行交易或求职申请的任务。

👉 野卡 | 一分钟注册,轻松订阅海外线上服务

上一篇 2025年6月17日
下一篇 2025年6月17日

热门推荐