Azure OpenAI 服务:配额与限制详解

本文将为您提供 Azure AI 服务中 Azure OpenAI 的配额和限制的全面指南,助您更好地规划和管理资源。


Azure OpenAI 默认配额与限制

以下是 Azure OpenAI 服务的默认配额和限制的快速参考:

| 限制名称 | 限制值 |
|——————————————|——————————————|
| 每个 Azure 订阅每个区域的 Azure OpenAI 资源 | 30 |
| 默认 DALL-E 2 配额限制 | 2 个并发请求 |
| 默认 DALL-E 3 配额限制 | 2 个容量单位(每分钟 6 个请求) |
| 默认 Whisper 配额限制 | 每分钟 3 个请求 |
| 每个请求的最大提示令牌数 | 每个模型不同,详见 Azure OpenAI 服务模型 |
| 每个资源的最大标准部署数 | 32 |
| 最大微调模型部署 | 5 |
| 每个资源的训练作业总数 | 100 |
| 每个资源同时运行的最大训练作业数 | 1 |
| 排队的最大训练作业数 | 20 |
| 每个资源的最大文件数(优调) | 50 |
| 每个资源的所有文件的总大小(优调) | 1 GB |
| 最大训练作业时间(如果超过,作业将失败) | 720 小时 |
| 最大训练作业大小(训练文件中的标记数)×(时期数) | 20 亿 |
| 每次上传的所有文件的最大大小(数据上的 Azure OpenAI) | 16 MB |
| 数组中具有 /embeddings 的最大输入数 | 2048 |
| 最大 /chat/completions 消息数 | 2048 |
| 最大 /chat/completions 函数数 | 128 |
| 最大 /chat completions 工具数 | 128 |
| 每个部署预配的吞吐量单位数上限 | 100,000 |
| 每个助手/线程的最大文件数 | 使用 API 或 Azure AI Foundry 门户时为 10,000,在 Azure OpenAI Studio 中为 20 |
| 助手和微调的最大文件大小 | 512 MB(通过 Azure AI Foundry 门户为 200 MB) |
| 助手的所有上传文件的最大大小 | 100 GB |
| 助手令牌限制 | 2,000,000 |
| GPT-4o 每个请求的最大图像数(消息数组/对话历史记录中的图像数) | 50 |
| GPT-4 vision-preview 和 GPT-4 turbo-2024-04-09 默认最大令牌数 | 16(GPT-4o 默认为 4096) |
| API 请求中的最大自定义标头数1 | 10 |

1 当前 API 最多允许 10 个自定义标头。超过此限制可能导致 HTTP 431 错误。建议减少标头数量,未来 API 版本将不再支持自定义标头。


Batch 限制

| 限制名称 | 限制值 |
|—————————-|————|
| 每个资源的最大文件数 | 500 |
| 最大输入文件大小 | 200 MB |
| 每个文件的最大请求数 | 100,000 |


批处理配额

批处理配额以入队令牌表示。提交文件时,文件中的令牌数将计入总入队令牌限制。

全局批处理

| 型号 | 企业协议 | 默认 | 基于信用卡的每月订阅 | MSDN 订阅 | 面向学生的 Azure 免费试用版 |
|———————|————–|———-|————————–|—————|——————————–|
| gpt-4o | 5 B | 200 M | 50 M | 90 K | 空值 |
| gpt-4o-mini | 15 B | 1 B | 50 M | 90 K | 空值 |
| gpt-4-turbo | 300 M | 80 M | 40 M | 90 K | 空值 |
| gpt-4 | 150 M | 30 M | 5 M | 10 万 | 空值 |
| gpt-35-turbo | 10 B | 1 B | 100 M | 2 M | 50 万 |

数据区域批处理

| 型号 | 企业协议 | 默认 | 基于信用卡的每月订阅 | MSDN 订阅 | 面向学生的 Azure 免费试用版 |
|———————|————–|———-|————————–|—————|——————————–|
| gpt-4o | 500 M | 30 M | 30 M | 90 K | 空值 |
| gpt-4o-mini | 1.5 B | 100 M | 50 M | 90 K | 空值 |


o1 和 o1-mini 速率限制

o1 系列模型的 RPM/TPM 比率与旧模型不同,需特别注意:

  • 旧模型: 1 容量单位 = 6 RPM 和 1000 TPM。
  • o1 和 o1-preview: 1 容量单位 = 1 RPM 和 6,000 TPM。
  • o1-mini: 1 容量单位 = 1 RPM 和 10,000 TPM。

GPT-4o 与 GPT-4 Turbo 的速率限制

gpt-4ogpt-4-turbo 提供更高的速率限制层,适用于特定客户类型。


保持在速率限制范围内的最佳实践

  • 在应用程序中实现重试逻辑。
  • 避免工作负载的急剧变化,逐步增大负载。
  • 测试不同负载增加模式。
  • 增加分配给部署的配额。

如何请求增加配额

通过 配额增加请求表单 提交请求。优先处理已消耗现有配额的客户。


👉 野卡 | 一分钟注册,轻松订阅海外线上服务


后续步骤

上一篇 4天前
下一篇 4天前

热门推荐