推理/速率限制与扩展

速率限制与扩展

wylon 新云 Token 工厂的实时推理受组织级速率限制约束，限额随账户等级与使用历史自动提升。如果负载是离线 / 大批量类型，批量推理拥有独立配额、并发限制更宽松。

限制如何生效

系统并行跟踪两个计数器，任一触发即会被限流：

RPM — 每分钟请求数，不区分大小。
TPM — 每分钟 Token 数（输入 + 输出合并计算）。

限额按 (组织, 模型, 区域) 独立跟踪。采用滚动窗口而非固定桶，因此突发流量会在 60 秒窗口内平滑。

等级

等级会随累计消费与账户历史自动升级。你也可以随时在控制台申请提升。

等级	条件	默认 RPM	默认 TPM
免费	新账户、未付费	60	60,000
Tier 1	首次付费充值	500	500,000
Tier 2	累计消费 ¥300 且账户 7 天以上	2,500	2,000,000
Tier 3	累计消费 ¥3,000 且账户 30 天以上	10,000	10,000,000
Tier 4	累计消费 ¥30,000	30,000	50,000,000
企业版	合同制	定制	定制

info

不同模型的限额不同。大型旗舰模型的默认值通常比小模型更紧。在控制台的限制页面可以查看你的实时数值。

响应头

每个响应都会附带实时计数，便于客户端提前退避。

x-ratelimit-limit-requests:      2500
x-ratelimit-remaining-requests:  2487
x-ratelimit-reset-requests:      42ms

x-ratelimit-limit-tokens:        2000000
x-ratelimit-remaining-tokens:    1884221
x-ratelimit-reset-tokens:        1.2s

429 响应

超出限额时将返回 HTTP 429 Too Many Requests。响应体会注明触发的计数器与建议的重试延迟。

{
  "error": {
    "type": "rate_limit_exceeded",
    "message": "Rate limit reached for moonshotai/kimi-k2.5 on tier 2.",
    "limit_type": "tokens",
    "retry_after": 3.4
  }
}

推荐的客户端行为

尊重 Retry-After。这是服务端对容量何时释放的最佳估计。
带抖动的指数退避。连续 429 时将延迟翻倍（上限 30 秒），并叠加 ±20% 抖动。
关注 x-ratelimit-remaining-*。在触限之前就在客户端限流。
尽量合并批处理。更少、更大的请求能节省 RPM 余量。

import time, random
from openai import OpenAI, RateLimitError

client = OpenAI(base_url="https://api.wylon.cn/v1", api_key=os.environ["WYLON_API_KEY"])

def call_with_retry(messages, attempts=6):
    for i in range(attempts):
        try:
            return client.chat.completions.create(model="moonshotai/kimi-k2.5", messages=messages)
        except RateLimitError as e:
            delay = min(30, (2 ** i)) * (0.8 + random.random() * 0.4)
            time.sleep(delay)
    raise RuntimeError("exhausted retries")

申请提高限额

大多数团队无需主动申请——等级会自动升级。对于一次性事件（产品发布、营销活动），可在 控制台 → 限制 → 申请提升 中提交，注明预期峰值 RPM/TPM 与时间窗口。审批通常在一个工作日内完成。

配合批量推理

当你的工作负载允许异步处理（例如评估、文档批处理、合成数据生成），请将其迁移到批量推理：实时配额仅消耗于在线请求，批量任务走独立配额并享受批量折扣。