什么是 Operator?

OpenAI 推出 AI 智能体 Operator:像人类一样操作电脑,预计 2025 年底成为常态

2024 年 10 月,Claude 3.5 Sonnet 推出了一项突破性功能——计算机使用能力(computer use)。这一功能使开发者能够指导 Claude 像人类一样操作电脑,包括查看屏幕、移动鼠标、点击按钮、输入文字等。Claude 能够理解复杂指令,自动完成一系列操作,如浏览网页、查找信息、填写表格,甚至进行软件测试和开发。屏幕上仿佛有一个真人在远程操控,而用户只需旁观,这种体验令人称奇。

2025 年初,OpenAI 举行了一场备受期待的直播活动,正式发布了其首款 AI 智能体——Operator。这款智能体能够代理用户执行基于网页的操作,像人类一样使用网页浏览器。与传统的“问一句、答一句”的聊天机器人不同,AI 智能体能够在有限的人类监督下完成任务,被视为 AI 生产力的下一个里程碑。在 OpenAI 通往通用人工智能(AGI)的五个步骤中,AI 智能体是继聊天机器人、推理机器人之后的第三步,标志着全新的进展。

OpenAI 的 CEO 山姆·奥尔特曼(Sam Altman)表示,美国的 ChatGPT Pro 用户(每月支付 200 美元)将能够率先体验“研究预览版”的 Operator。未来,这一功能将逐步扩展到更多地区的 Pro 用户,并在几个月内向 ChatGPT Plus 用户开放。此外,OpenAI 还计划在未来几周或几个月内发布更多 AI 代理。

什么是 Operator?

Operator 由一种名为 CUA(计算机使用代理)的新模型驱动,结合了 GPT-4o 的视觉能力和通过强化学习实现的高级推理能力。它能够“看见”网页(通过截图),并使用鼠标和键盘的所有操作与网页进行交互。如果在操作中遇到困难,模型会调用推理能力进行自我纠正;若仍无法解决问题,控制权将交还给人类。

为了更好地理解 Operator 的能力,可以通过实际案例来说明。其界面与 ChatGPT 类似,但最大的区别在于它能够调用“AI 代理”完成用户指定的任务。例如,在演示案例中,用户只需在对话框中输入“给我订一个 XX 饭店今晚 19 点的桌子”,Operator 便会自动打开网页,进入预订网站,搜索餐厅并完成预订。如果所需时段已被订满,AI 会主动询问替代方案,如“19 点 45 分的桌子还有,要不要订?”

然而,OpenAI 也提醒用户,尽管 Operator 已经是目前市面上最强的 AI 代理,但与人类相比仍有一定差距。例如,在浏览器基准测试中,OpenAI CUA 模型的得分为 58.1%,而人类的水平可达 78%。因此,这项新技术仍有可能出错,但 OpenAI 承诺将在未来几个月内持续改进。

目前,Operator 擅长处理短任务和重复性操作,但在复杂任务(如幻灯片制作、日历管理)上表现不佳。例如,在处理多步骤任务时,模型可能会因界面变化或意外事件而失败。此外,在处理长 DNA 序列、随机字符串(如 API 密钥)或复杂代码时,Operator 的光学字符识别(OCR)系统表现不佳。这是因为这些任务超出了训练数据的范围,导致模型在识别和操作内容时容易出错。尽管 OpenAI 已采取多种措施防止提示注入攻击和恶意指令,但 Operator 在面对新型对抗性攻击时仍可能表现出脆弱性。

尽管如此,AI 智能体的技术正在快速进化。预计到 2025 年底,各大 AI 公司推出的 AI 智能体将能够熟练操作电脑,实现更高效的人机互动。

👉 野卡 | 一分钟注册,轻松订阅海外线上服务

上一篇 2025年4月26日
下一篇 2025年4月26日

热门推荐