限流策略
Real200 对 API 请求实施频率限制,以保障服务稳定性和公平性。
限流指标
| 指标 | 说明 |
|---|---|
| RPM (Requests Per Minute) | 每分钟最大请求数 |
| TPM (Tokens Per Minute) | 每分钟最大 Token 数 |
默认限制
| 用户类型 | RPM | TPM |
|---|---|---|
| 免费用户 | 60 | 50,000 |
| 付费用户 | 600 | 500,000 |
| 企业用户 | 联系定制 | 联系定制 |
:::tip 提升限制
如需提高限流阈值,请联系客服或在控制台提交申请。
:::
限流响应
当超过限制时,API 返回 429 Too Many Requests:
{
"error": {
"message": "请求频率超过限制 (RPM: 60)。请稍后重试。",
"type": "rate_limit_exceeded",
"code": "rate_limit_exceeded"
}
}
响应头中会包含限流信息:
X-RateLimit-Limit: 60
X-RateLimit-Remaining: 0
X-RateLimit-Reset: 1716300060
Retry-After: 30
重试策略
推荐使用指数退避(Exponential Backoff)策略:
import time
import random
def call_with_retry(func, max_retries=3):
for attempt in range(max_retries):
try:
return func()
except RateLimitError:
if attempt == max_retries - 1:
raise
# 指数退避 + 随机抖动
wait = (2 ** attempt) + random.uniform(0, 1)
time.sleep(wait)
各模型限流
不同模型可能有独立的限流策略:
| 模型 | 默认 RPM | 默认 TPM |
|---|---|---|
| gpt-4o | 500 | 400,000 |
| claude-sonnet-4 | 300 | 300,000 |
| gemini-2.5-pro | 200 | 200,000 |
| deepseek-v3 | 1000 | 1,000,000 |
| qwen3-235b | 1000 | 1,000,000 |
实际限制可能因供应商状态动态调整。