推理/概览

推理概览

wylon 新云 Token 工厂的推理引擎原生构建于国产 GPU 芯片（壁仞、寒武纪、沐曦、曦云）之上，以超节点架构调度算力，通过兼容 OpenAI 与 Anthropic 的 API 对外提供推理服务。默认采用无服务器架构，按 Token 计费；面向大流量异步场景另提供批量推理。

bolt

无需管理基础设施。 发送请求、获取响应即可。连续批处理、自动扩缩与跨异构国产 GPU 的路由都由 wylon 处理，你只需专注于应用层。

可用模型类别

目前覆盖三类模型，通过同一对话补全接口访问；完整模型列表见模型目录。

类别	示例模型	典型用途
文本生成	MiniMax M2、Kimi K2、GLM-4.6、Qwen3、DeepSeek V3.2	对话、推理、代码、工具使用
视觉语言	Kimi-VL、Qwen3-VL、GLM-4V	图像理解、文档解析
嵌入	BGE、Qwen3-Embedding	语义搜索、RAG、聚类

基础设施

模型运行在 wylon 自建的国产算力底座上。调度器将你的请求路由至满足延迟目标的最具性价比节点；具体芯片型号对应用层透明。

GPU 芯片：壁仞 BR、寒武纪 MLU、沐曦 MetaX、曦云 Sunrise（多厂商混合调度）
可用区：覆盖华东、华北、华南多个国内可用区，自动就近路由
扩缩：无服务器自动扩缩，从空闲到每分钟数百万 Token
大批量场景：提供批量推理（异步、低成本）

推理优化

wylon 在整个链路上应用了开源与自研优化的组合。整体效果可保留原模型 约 99% 的输出质量，同时相比原生服务带来 2–5× 的吞吐提升。

技术	作用
KV 缓存	复用前序 Token 的 key/value 张量，跳过冗余计算。
分页注意力	将长序列切分为页，消除内存碎片。
Flash Attention	融合的注意力内核 + 分块 Softmax — 更快、更省内存。
量化	FP8 / INT4 权重压缩，降低内存占用并提升速度。
连续批处理	在 Token 粒度合并进行中请求，提高 GPU 利用率。
上下文缓存	为重复前缀（系统提示、文档）存储中间层输出。
推测解码	小草稿模型预测多个 Token，大模型一次性验证。

一个最小请求

同一端点支持所有文本生成模型。更换 model ID 即可对比。

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["WYLON_API_KEY"],
    base_url="https://api.wylon.cn/v1",
)

resp = client.chat.completions.create(
    model="moonshotai/kimi-k2.5",
    messages=[{"role": "user", "content": "用两句话总结 RLHF。"}],
)

print(resp.choices[0].message.content)

curl https://api.wylon.cn/v1/chat/completions \
  -H "Authorization: Bearer $WYLON_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"moonshotai/kimi-k2.5","messages":[{"role":"user","content":"用两句话总结 RLHF。"}]}'

可调参数

API 接受 OpenAI 兼容的常用采样参数，包括 temperature、top_p、 max_tokens、presence_penalty、frequency_penalty、 stop、seed 等。完整参数清单与默认值见对话补全。

下一步

通过 JSONL 文件提交大批量异步任务，享受更优定价。

可观测性 arrow_forward

指标、日志与用量统计，便于排查与成本分析。