跳到主要内容

限流策略

Real200 对 API 请求实施频率限制,以保障服务稳定性和公平性。

限流指标

指标说明
RPM (Requests Per Minute)每分钟最大请求数
TPM (Tokens Per Minute)每分钟最大 Token 数

默认限制

用户类型RPMTPM
免费用户6050,000
付费用户600500,000
企业用户联系定制联系定制

:::tip 提升限制

如需提高限流阈值,请联系客服或在控制台提交申请。

:::

限流响应

当超过限制时,API 返回 429 Too Many Requests

{
"error": {
"message": "请求频率超过限制 (RPM: 60)。请稍后重试。",
"type": "rate_limit_exceeded",
"code": "rate_limit_exceeded"
}
}

响应头中会包含限流信息:

X-RateLimit-Limit: 60
X-RateLimit-Remaining: 0
X-RateLimit-Reset: 1716300060
Retry-After: 30

重试策略

推荐使用指数退避(Exponential Backoff)策略:

import time
import random

def call_with_retry(func, max_retries=3):
for attempt in range(max_retries):
try:
return func()
except RateLimitError:
if attempt == max_retries - 1:
raise
# 指数退避 + 随机抖动
wait = (2 ** attempt) + random.uniform(0, 1)
time.sleep(wait)

各模型限流

不同模型可能有独立的限流策略:

模型默认 RPM默认 TPM
gpt-4o500400,000
claude-sonnet-4300300,000
gemini-2.5-pro200200,000
deepseek-v310001,000,000
qwen3-235b10001,000,000

实际限制可能因供应商状态动态调整。