最新！OpenAI 发布 o3 及 o3 mini 推理模型

2025年6月15日下午9:43 • 博客文章

前情回顾

OpenAI 连续 12 天圣诞节前的发布完整回顾：

Day1：发布 o1 满血版、ChatGPT Pro 最贵订阅版本 200 美元/月
Day2：发布强化微调新功能，用少量训练数据即可在特定领域构建专家模型
Day3：发布视频生成模型 Sora
Day4：Canvas 全面开放，升级代码功能
Day5：展示 OpenAI 与苹果智能合作功能
Day6：发布高级实时视频理解功能
Day7：发布 Projects In ChatGPT 功能
Day8：搜索功能全面开放，支持语音搜索
Day9：o1 API 开放，实时 API 更新
Day10：拨打 1-800-ChatGPT 热线电话，可访问 ChatGPT
Day11：展示 Mac 桌面版 App 与各类 App 的互操作性

Day12：发布 o3 及 o3 mini 推理模型

在本期发布活动中，OpenAI 为我们带来了期待已久的 o3 及 o3 mini 推理模型。这是 OpenAI 迄今为止最先进的前沿推理模型的升级版，号称在特定条件下，性能已经接近通用人工智能（AGI）的水平。

o3 系列模型：性能卓越，接近 AGI

OpenAI 推出的 o3 系列模型包括以下两款：

OpenAI o3：旗舰版，性能强大
OpenAI o3 mini：轻量级，速度快，成本低，性价比高

o3 系列开放计划

目前，o3 系列并未向普通用户开放。OpenAI 计划先进行外部安全测试，预计明年 1 月正式发布。感兴趣的用户可以提交申请：OpenAI 安全测试申请

o3 模型性能提升

o3 模型在多个基准测试中表现优异：

SweepBench Verified：准确率 71.7%，比 o1 高出 20%
Codeforces 编程竞赛平台：得分 2727，远超 o1 的 1891 分
美国数学竞赛 AIME 2024：准确率 90.67%，高于 o1 的 83.3%
GPQA Diamond 测试：得分 87.7%，比 o1 的 78% 高
EpochAI Frontier Math 测试：得分超过 2457 分，远超其他模型

o3 的 AGI 进展

o3 在 ARC-AGI 基准测试中表现出色，得分为 75.7 分，在提高算力和思考时间后，得分达到 87.5%，超过大多数真人。

o3 mini 模型特点

o3 mini 继承了 o1 mini 的数学和编程能力，成本低，且向安全研究人员开放测试申请。它支持低、中、高三种推理时间模式，可根据任务复杂度调整思考时间。

Codeforces Elo 评分：随推理时间增加，得分持续攀升
GPQA 数据集测试：准确率达到 61.62%
AIME 数学基准测试：低推理模式与 o1 mini 相当，中等推理模式超越 o1 mini
API 功能：支持函数调用、结构化输出和开发者指令

市场影响

OpenAI 在 AI 领域的技术领先优势约两年，但随着市场份额被竞争对手蚕食，ChatGPT 的光环正在逐渐褪去。尽管有竞争对手如 Anthropic 和 Google 开发出性能接近的模型，OpenAI 仍保持着一定的竞争优势。作为用户，我们将成为这场变革中的最大受益者。

👉 野卡 | 一分钟注册，轻松订阅海外线上服务

新版Office 365开发者试用订阅E5：可续签且附自动续订方法

上一篇 2025年6月15日

用ChatGPT选股靠谱吗？探索AI在股票投资中的应用

下一篇 2025年6月15日

美国区PayPal账户绑定虚拟信用卡支付测试

一位网友在使用新申请的美国PayPal账户绑定中国VISA卡在Bestbuy购物时多次支付失败，于是向我咨询：为什么美国区PayPal绑定中国银行卡会支付失败？…

博客文章 2025年5月9日
博客文章

Stable Diffusion：图像生成技术的革命性突破

随着人工智能技术的飞速发展，计算机生成的艺术作品正逐渐融入我们的日常生活。其中，Stable Diffusion 作为一种创新的图像生成技术，正在引领一场艺术创…

2025年3月9日
ChatGPT-4o 与 Poe GPT-4o 对比：中文写作表现分析

在本文中，我们将探讨 ChatGPT-4o 和 Poe GPT-4o 在中文写作中的表现差异，分析它们在处理复杂主题时的不同特点。引言随着人工智能技术的快速…

博客文章 2025年5月12日
博客文章

我付费订阅的 AI 工具及其实际收益

最近，一家科技媒体对我进行了一次书面访谈，提出了关于 AI 工具选择、成本效益、使用场景及其对个人和社会影响的系列问题。这些问题引发了我的深入思考，也促使我将这…

2025年3月24日
Perplexity 新功能全解析：从入门到精通

Perplexity 有哪些独特之处？本文将深入解析，并提供实用案例，助你挖掘 AI 潜力，提升工作效率。 Perplexity 最近推出了一系列令人惊艳的更新…

博客文章 2025年3月22日
手把手教你 Midjourney：从入门到订阅管理全攻略

大家好，这里是 Dennis 的 AI 说。上一期我们介绍了如何注册 Midjourney 账号，今天我们将深入探讨如何订阅套餐以及后续的管理步骤。Midjou…

博客文章 2025年2月8日
博客文章

无需虚拟信用卡，轻松在iOS上开通ChatGPT Plus（附3分钟完成美区ID申请指南）

更新：2023-05-02 有用户反馈，使用支付宝礼品卡可能存在不稳定的情况，建议优先选择官网的礼品卡。此外，部分新注册的美区Apple ID可能会遇到礼品卡充…

2025年2月16日
AWS 支持哪些付款方式？全面解析与使用指南

AWS（Amazon Web Services）是云计算领域的领先平台，为用户提供了多样化的付款方式。本文将详细介绍 AWS 支持的付款方式，帮助您更好地管理…

博客文章 2025年2月25日
Anthropic AI 推出的 Claude 3.5 Sonnet：功能、成本、使用指南與實例解析

在人工智慧（AI）快速發展的浪潮中，Anthropic AI 推出的 Claude 3.5 Sonnet 模型備受矚目。這款模型以其卓越的性能和靈活性，成為自然…

博客文章 2025年3月11日
Netflix限制账号共享！2025年香港热门流媒体平台费用及优惠指南

随着工作压力的增加，越来越多人选择宅在家中通过追剧来减压。欧美剧集的热播更是让无数人深陷其中。如今，流媒体平台种类繁多，如何选择最适合自己的平台呢？本文将为您详…

博客文章 2025年5月14日
国内注册OpenAI GPT官方账号指南：无需手机验证码，轻松上手（附ChatGPT Plus升级教程）

👉 野卡 | 一分钟注册，轻松订阅海外线上服务一、前言随着人工智能技术的飞速发展，ChatGPT作为OpenAI的明星产品，已经成为众多用户提升效率的利器。…

博客文章 2025年7月7日
五分钟开通ChatGPT Team：企业高效协作的AI助手

ChatGPT Team是OpenAI于2023年下半年推出的企业级会员计划，专为团队用户设计，提供更专业、高效的AI服务。与个人版ChatGPT Plus相比…

博客文章 2025年6月26日
亚马逊 FBA 费用详解：在亚马逊销售商品需要支付哪些费用？

在亚马逊上销售商品是许多卖家的选择，但费用问题一直是关注的焦点。了解亚马逊 FBA 费用结构，可以帮助您更好地规划成本，确保盈利。本文将为您详细解析 2024 …

博客文章 2025年1月31日
博客文章

国内用户如何升级Claude Sonnet 3.5订阅？

6月21日，Anthropic公司发布了Claude 3.5系列的首个版本——Claude 3.5 Sonnet。这一版本在文字创作和代码编写方面展现出比Cha…

2025年3月24日
博客文章

2025 年美国 13 款最佳免费虚拟信用卡-借记卡推荐

虚拟卡提供商允许用户获取计算机生成的信用卡或借记卡（非实体卡），并实现在线购物时不需输入原始卡号。这些卡提供了防欺诈保护和消费限额自动管理等高级功能。选择知名可…

2025年7月11日