图片来源:DAVID PAUL MORRIS—BLOOMBERG VIA GETTY IMAGES
OpenAI近期发布了其最新的o1系列人工智能模型,这一系列模型在解决复杂推理和数学问题方面表现出色,超越了之前的大语言模型。上周四,OpenAI向部分付费用户推出了两个新模型的“预览版”,分别是o1-preview和o1-mini。
o1模型的核心优势
o1模型的推出标志着人工智能在推理和数学能力上的重大突破。它不仅可以帮助化学家、物理学家和工程师解决复杂问题,还能为投资者提供期权交易策略的计算支持,或协助理财规划师创建更优化的投资组合,更好地权衡风险与回报。
对于科技公司而言,o1模型的强大推理和规划能力尤为重要,尤其是在开发能够执行复杂任务的人工智能助理方面,例如编写完整的计算机程序、分析数据并生成报告。
o1模型的性能表现
o1模型在基准测试中的表现令人印象深刻。在面向高中生的美国数学邀请赛(AIME)中,o1模型的准确率达到了83.3%,而GPT-4o的准确率仅为13.4%。此外,o1在回答博士水平科学问题时的准确率为78%,优于GPT-4o的56.1%和人类专家的69.7%。
o1模型在减少“幻觉”(即提供不准确但自信的答案)方面也有显著改进。其更难被“越狱”,即绕过OpenAI设置的安全防护措施。
o1模型的局限性
尽管o1模型的推理能力有所提升,但它仍存在一些局限性。例如,在处理谜题和简单任务(如井字棋)时,o1模型有时会出错。此外,o1模型回答问题的速度较慢,平均需要超过30秒,而GPT-4o仅需3秒。
o1模型目前尚未完全整合到ChatGPT中,用户需要手动选择由o1-preview还是GPT-4o处理提示词。此外,o1模型仅支持文本处理,无法处理图片、音频或视频输入。
o1模型的关键要点
以下是关于o1模型的9个关键点:
- 并非通用人工智能:o1-preview虽然在推理任务上表现出色,但距离通用人工智能仍有很大差距。
- 行业竞争压力:o1模型为OpenAI带来了短暂的竞争优势,但谷歌、Meta等公司也在开发类似能力的模型,竞争格局可能会迅速变化。
- 运行机制不明:OpenAI未公开o1模型的具体运行机制和训练数据,仅透露其整合了多种人工智能技术。
- 高昂的使用成本:o1-preview的使用成本较高,企业客户需为每100万个词元支付15至60美元。
- 隐藏“思维链”引发客户不满:OpenAI出于安全和竞争考虑,隐藏了o1模型的“思维链”,这可能导致企业客户无法核实收费或优化提问策略。
- 新的“扩展法则”:o1模型展示了推理时间与准确度之间的直接联系,推理时间越长,回答越准确。
- 强大的AI助理与潜在风险:o1模型可助力创建功能强大的AI助理,但需确保其不会采取意外行动,带来伦理或法律风险。
- 安全性评估:o1模型在许多方面更安全,但在协助生物攻击方面被分类为“中等风险”。
- 人工智能安全专家的担忧:o1模型在“说服力”方面被评级为“中等风险”,未来若被恶意利用,可能带来严重后果。
o1-preview和o1-mini模型目前已向ChatGPT Plus和ChatGPT Teams订阅用户,以及使用企业级API的顶级开发者开放。尽管o1模型在推理能力上取得了显著进步,但其局限性和高昂成本仍是用户需要权衡的因素。
译者:刘进龙