限流策略

Real200 对 API 请求实施频率限制，以保障服务稳定性和公平性。

限流指标

指标	说明
RPM (Requests Per Minute)	每分钟最大请求数
TPM (Tokens Per Minute)	每分钟最大 Token 数

默认限制

用户类型	RPM	TPM
免费用户	60	50,000
付费用户	600	500,000
企业用户	联系定制	联系定制

:::tip 提升限制

如需提高限流阈值，请联系客服或在控制台提交申请。

:::

限流响应

当超过限制时，API 返回 429 Too Many Requests：

{
  "error": {
    "message": "请求频率超过限制 (RPM: 60)。请稍后重试。",
    "type": "rate_limit_exceeded",
    "code": "rate_limit_exceeded"
  }
}

响应头中会包含限流信息：

X-RateLimit-Limit: 60
X-RateLimit-Remaining: 0
X-RateLimit-Reset: 1716300060
Retry-After: 30

重试策略

推荐使用指数退避（Exponential Backoff）策略：

import time
import random

def call_with_retry(func, max_retries=3):
    for attempt in range(max_retries):
        try:
            return func()
        except RateLimitError:
            if attempt == max_retries - 1:
                raise
            # 指数退避 + 随机抖动
            wait = (2 ** attempt) + random.uniform(0, 1)
            time.sleep(wait)

各模型限流

不同模型可能有独立的限流策略：

模型	默认 RPM	默认 TPM
gpt-4o	500	400,000
claude-sonnet-4	300	300,000
gemini-2.5-pro	200	200,000
deepseek-v3	1000	1,000,000
qwen3-235b	1000	1,000,000

实际限制可能因供应商状态动态调整。

限流指标​

默认限制​

限流响应​

重试策略​

各模型限流​

限流指标

默认限制

限流响应

重试策略

各模型限流