前情回顾
OpenAI 连续 12 天圣诞节前的发布完整回顾:
- Day1:发布 o1 满血版、ChatGPT Pro 最贵订阅版本 200 美元/月
- Day2:发布强化微调新功能,用少量训练数据即可在特定领域构建专家模型
- Day3:发布视频生成模型 Sora
- Day4:Canvas 全面开放,升级代码功能
- Day5:展示 OpenAI 与苹果智能合作功能
- Day6:发布高级实时视频理解功能
- Day7:发布 Projects In ChatGPT 功能
- Day8:搜索功能全面开放,支持语音搜索
- Day9:o1 API 开放,实时 API 更新
- Day10:拨打 1-800-ChatGPT 热线电话,可访问 ChatGPT
- Day11:展示 Mac 桌面版 App 与各类 App 的互操作性
Day12:发布 o3 及 o3 mini 推理模型
在本期发布活动中,OpenAI 为我们带来了期待已久的 o3 及 o3 mini 推理模型。这是 OpenAI 迄今为止最先进的前沿推理模型的升级版,号称在特定条件下,性能已经接近通用人工智能(AGI)的水平。
o3 系列模型:性能卓越,接近 AGI
OpenAI 推出的 o3 系列模型包括以下两款:
- OpenAI o3:旗舰版,性能强大
- OpenAI o3 mini:轻量级,速度快,成本低,性价比高
o3 系列开放计划
目前,o3 系列并未向普通用户开放。OpenAI 计划先进行外部安全测试,预计明年 1 月正式发布。感兴趣的用户可以提交申请:OpenAI 安全测试申请
o3 模型性能提升
o3 模型在多个基准测试中表现优异:
- SweepBench Verified:准确率 71.7%,比 o1 高出 20%
- Codeforces 编程竞赛平台:得分 2727,远超 o1 的 1891 分
- 美国数学竞赛 AIME 2024:准确率 90.67%,高于 o1 的 83.3%
- GPQA Diamond 测试:得分 87.7%,比 o1 的 78% 高
- EpochAI Frontier Math 测试:得分超过 2457 分,远超其他模型
o3 的 AGI 进展
o3 在 ARC-AGI 基准测试中表现出色,得分为 75.7 分,在提高算力和思考时间后,得分达到 87.5%,超过大多数真人。
o3 mini 模型特点
o3 mini 继承了 o1 mini 的数学和编程能力,成本低,且向安全研究人员开放测试申请。它支持低、中、高三种推理时间模式,可根据任务复杂度调整思考时间。
- Codeforces Elo 评分:随推理时间增加,得分持续攀升
- GPQA 数据集测试:准确率达到 61.62%
- AIME 数学基准测试:低推理模式与 o1 mini 相当,中等推理模式超越 o1 mini
- API 功能:支持函数调用、结构化输出和开发者指令
市场影响
OpenAI 在 AI 领域的技术领先优势约两年,但随着市场份额被竞争对手蚕食,ChatGPT 的光环正在逐渐褪去。尽管有竞争对手如 Anthropic 和 Google 开发出性能接近的模型,OpenAI 仍保持着一定的竞争优势。作为用户,我们将成为这场变革中的最大受益者。