2024 年 5 月 13 日,OpenAI 发布了全新 AI 模型 GPT-4o。与之前的版本相比,GPT-4o 的响应速度提升了一倍,并支持文本、图像、音频和视频的多模态交互。本文将全面介绍 GPT-4o 的核心功能,并详细讲解如何将 GPT-4o API 集成到您的项目中。
什么是 GPT-4o?
GPT-4o 是 OpenAI 推出的最新 AI 模型,其中“4o”的“o”代表“Omni”(全方位)。与 ChatGPT 仅支持文本和图像的交互不同,GPT-4o 支持文本、音频、图像和视频的组合输入,进一步扩展了 AI 的应用场景。
GPT-4o 的核心特点
响应速度大幅提升
OpenAI 表示,GPT-4o 的响应时间显著缩短。与 GPT-4 相比,GPT-4o 的平均响应时间从 5.4 秒降至 3.20 秒,几乎接近人类的反应速度。这使得与 AI 的交互更加实时和自然。
音频情感识别
GPT-4o 能够识别说话者的语气和背景噪音,这是之前版本无法实现的。这一功能使 AI 对话更加贴近人类的交流方式。
Token 使用效率提升
GPT-4o 优化了 20 种语言(如日语)的 Token 使用效率。例如,日语中的交互语句“你好,我叫 GPT-4o,我是一种新型语言模型,很高兴认识你”所需的 Tokens 从 37 个减少到 24 个。
免费提供
GPT-4o 发布后,OpenAI 将之前付费的服务(如 GPT、GPT Store 和 GPT-4)免费提供给用户。
桌面客户端支持
GPT-4o 推出了 macOS 桌面应用程序,Windows 版本也计划于 2024 年下半年发布。
GPT-4o API 的使用方法
GPT-4o API 的可用性
GPT-4o API 已在 Chat Completions API、Assistants API 和 Batch API 中提供,支持文本和视觉模型。
GPT-4o API 的主要优势
- 更智能:提供 GPT-4 Turbo 级别的性能,在多语言、音频和视觉能力上表现出色。
- 响应速度提升 2 倍:比 GPT-4 Turbo 更快。
- 价格减半:输入和输出 Tokens 的成本仅为 GPT-4 Turbo 的一半。
- 速率限制提高 5 倍:最高可达每分钟 1000 万个 Tokens。
- 视觉能力优化:图像处理能力显著提升。
- 非英语语言处理优化:更高效地处理非英语文本。
GPT-4o API 的定价
根据 OpenAI 官方定价,GPT-4o 的文本输入和输出成本为:
- 输入:5 美元 / 1M Tokens
- 输出:15 美元 / 1M Tokens
视觉处理成本基于图像的宽度和高度计算。例如,处理一张 1150px × 150px 的图像成本为 0.001275 美元。
使用 GPT-4o API 的注意事项
- GPT-4o API 可以理解没有音频的视频,但需要将视频转换为帧(每秒 2-4 帧)。
- 截至 2024 年 5 月 14 日,GPT-4o API 暂不支持音频模式。
- 图像生成功能尚未支持,建议使用 DALL-E 3 API。
- OpenAI 建议所有 GPT-4 或 GPT-4 Turbo 用户评估 GPT-4o 的功能后再决定是否切换。
如何获取 OpenAI API 密钥
1. 注册 OpenAI 账户
访问 OpenAI 官网并点击“Get Started”按钮创建账户。
2. 获取 API 密钥
登录 OpenAI 后,访问 API 密钥页面并点击“Create new secret key”生成密钥。请务必安全存储密钥,因为生成后将无法再次查看。
使用 Apifox 管理 GPT-4o API
Apifox 是一款强大的 API 管理工具,支持 GPT-4o API 的调试和管理。通过 Apifox 的 OpenAI API 项目,您可以轻松访问 GPT-4o API 并集成到您的项目中。
实战演示:将 GPT-4o API 与 Apifox 结合
- 在 Apifox 中访问 OpenAI API 项目。
- 选择 Chat Completions API,并在请求 Body 中指定模型为“gpt-4o”。
- 在 Headers 选项卡中添加授权参数,输入您的 API 密钥并点击“发送”按钮。
总结
GPT-4o 是 OpenAI 推出的最新 AI 模型,具有以下优势:
- 响应速度提升一倍
- 支持文本、图像、音频和视频的多模态交互
- Token 使用效率优化
- API 价格减半,速率限制提高 5 倍
- 视觉能力和非英语语言处理能力显著提升
要使用 GPT-4o API,您需要创建 OpenAI 账户并获取 API 密钥。Apifox 是管理和调试 GPT-4o API 的理想工具。
未来,GPT-4o API 将支持音频功能,进一步扩展其应用场景。通过将 GPT-4o 的强大功能集成到您的服务中,您可以为用户提供更出色的 AI 体验。