wylon

速率限制与扩展

wylon 新云 Token 工厂的实时推理受组织级速率限制约束,限额随账户等级与使用历史自动提升。 如果负载是离线 / 大批量类型,批量推理 拥有独立配额、并发限制更宽松。

限制如何生效

系统并行跟踪两个计数器,任一触发即会被限流:

限额按 (组织, 模型, 区域) 独立跟踪。采用滚动窗口而非固定桶,因此突发流量会在 60 秒窗口内平滑。

等级

等级会随累计消费与账户历史自动升级。你也可以随时在控制台申请提升。

等级条件默认 RPM默认 TPM
免费新账户、未付费6060,000
Tier 1首次付费充值500500,000
Tier 2累计消费 ¥300 且账户 7 天以上2,5002,000,000
Tier 3累计消费 ¥3,000 且账户 30 天以上10,00010,000,000
Tier 4累计消费 ¥30,00030,00050,000,000
企业版合同制定制定制
info
不同模型的限额不同。大型旗舰模型的默认值通常比小模型更紧。 在控制台的 限制 页面可以查看你的实时数值。

响应头

每个响应都会附带实时计数,便于客户端提前退避。

x-ratelimit-limit-requests:      2500
x-ratelimit-remaining-requests:  2487
x-ratelimit-reset-requests:      42ms

x-ratelimit-limit-tokens:        2000000
x-ratelimit-remaining-tokens:    1884221
x-ratelimit-reset-tokens:        1.2s

429 响应

超出限额时将返回 HTTP 429 Too Many Requests。响应体会注明触发的计数器与建议的重试延迟。

{
  "error": {
    "type": "rate_limit_exceeded",
    "message": "Rate limit reached for moonshotai/kimi-k2.5 on tier 2.",
    "limit_type": "tokens",
    "retry_after": 3.4
  }
}

推荐的客户端行为

import time, random
from openai import OpenAI, RateLimitError

client = OpenAI(base_url="https://api.wylon.cn/v1", api_key=os.environ["WYLON_API_KEY"])

def call_with_retry(messages, attempts=6):
    for i in range(attempts):
        try:
            return client.chat.completions.create(model="moonshotai/kimi-k2.5", messages=messages)
        except RateLimitError as e:
            delay = min(30, (2 ** i)) * (0.8 + random.random() * 0.4)
            time.sleep(delay)
    raise RuntimeError("exhausted retries")

申请提高限额

大多数团队无需主动申请——等级会自动升级。对于一次性事件(产品发布、营销活动), 可在 控制台 → 限制 → 申请提升 中提交,注明预期峰值 RPM/TPM 与时间窗口。 审批通常在一个工作日内完成。

配合批量推理

当你的工作负载允许异步处理(例如评估、文档批处理、合成数据生成), 请将其迁移到 批量推理: 实时配额仅消耗于在线请求,批量任务走独立配额并享受批量折扣。

沪ICP备2026010432号-1 沪公网安备31010402336632号