速率限制与扩展
wylon 新云 Token 工厂的实时推理受组织级速率限制约束,限额随账户等级与使用历史自动提升。 如果负载是离线 / 大批量类型,批量推理 拥有独立配额、并发限制更宽松。
限制如何生效
系统并行跟踪两个计数器,任一触发即会被限流:
- RPM — 每分钟请求数,不区分大小。
- TPM — 每分钟 Token 数(输入 + 输出合并计算)。
限额按 (组织, 模型, 区域) 独立跟踪。采用滚动窗口而非固定桶,因此突发流量会在 60 秒窗口内平滑。
等级
等级会随累计消费与账户历史自动升级。你也可以随时在控制台申请提升。
| 等级 | 条件 | 默认 RPM | 默认 TPM |
|---|---|---|---|
| 免费 | 新账户、未付费 | 60 | 60,000 |
| Tier 1 | 首次付费充值 | 500 | 500,000 |
| Tier 2 | 累计消费 ¥300 且账户 7 天以上 | 2,500 | 2,000,000 |
| Tier 3 | 累计消费 ¥3,000 且账户 30 天以上 | 10,000 | 10,000,000 |
| Tier 4 | 累计消费 ¥30,000 | 30,000 | 50,000,000 |
| 企业版 | 合同制 | 定制 | 定制 |
info
不同模型的限额不同。大型旗舰模型的默认值通常比小模型更紧。
在控制台的 限制 页面可以查看你的实时数值。
响应头
每个响应都会附带实时计数,便于客户端提前退避。
x-ratelimit-limit-requests: 2500
x-ratelimit-remaining-requests: 2487
x-ratelimit-reset-requests: 42ms
x-ratelimit-limit-tokens: 2000000
x-ratelimit-remaining-tokens: 1884221
x-ratelimit-reset-tokens: 1.2s
429 响应
超出限额时将返回 HTTP 429 Too Many Requests。响应体会注明触发的计数器与建议的重试延迟。
{
"error": {
"type": "rate_limit_exceeded",
"message": "Rate limit reached for moonshotai/kimi-k2.5 on tier 2.",
"limit_type": "tokens",
"retry_after": 3.4
}
}
推荐的客户端行为
- 尊重
Retry-After。这是服务端对容量何时释放的最佳估计。 - 带抖动的指数退避。连续 429 时将延迟翻倍(上限 30 秒),并叠加 ±20% 抖动。
- 关注
x-ratelimit-remaining-*。在触限之前就在客户端限流。 - 尽量合并批处理。更少、更大的请求能节省 RPM 余量。
import time, random
from openai import OpenAI, RateLimitError
client = OpenAI(base_url="https://api.wylon.cn/v1", api_key=os.environ["WYLON_API_KEY"])
def call_with_retry(messages, attempts=6):
for i in range(attempts):
try:
return client.chat.completions.create(model="moonshotai/kimi-k2.5", messages=messages)
except RateLimitError as e:
delay = min(30, (2 ** i)) * (0.8 + random.random() * 0.4)
time.sleep(delay)
raise RuntimeError("exhausted retries")
申请提高限额
大多数团队无需主动申请——等级会自动升级。对于一次性事件(产品发布、营销活动), 可在 控制台 → 限制 → 申请提升 中提交,注明预期峰值 RPM/TPM 与时间窗口。 审批通常在一个工作日内完成。
配合批量推理
当你的工作负载允许异步处理(例如评估、文档批处理、合成数据生成), 请将其迁移到 批量推理: 实时配额仅消耗于在线请求,批量任务走独立配额并享受批量折扣。