推理概览
wylon 新云 Token 工厂的推理引擎原生构建于国产 GPU 芯片(壁仞、寒武纪、沐曦、曦云)之上,以超节点架构调度算力,通过兼容 OpenAI 与 Anthropic 的 API 对外提供推理服务。默认采用无服务器架构,按 Token 计费;面向大流量异步场景另提供 批量推理。
bolt
无需管理基础设施。
发送请求、获取响应即可。连续批处理、自动扩缩与跨异构国产 GPU 的路由都由 wylon 处理,
你只需专注于应用层。
可用模型类别
目前覆盖三类模型,通过同一 对话补全 接口访问;完整模型列表见 模型目录。
| 类别 | 示例模型 | 典型用途 |
|---|---|---|
| 文本生成 | MiniMax M2、Kimi K2、GLM-4.6、Qwen3、DeepSeek V3.2 | 对话、推理、代码、工具使用 |
| 视觉语言 | Kimi-VL、Qwen3-VL、GLM-4V | 图像理解、文档解析 |
| 嵌入 | BGE、Qwen3-Embedding | 语义搜索、RAG、聚类 |
基础设施
模型运行在 wylon 自建的国产算力底座上。调度器将你的请求路由至满足延迟目标的最具性价比节点;具体芯片型号对应用层透明。
- GPU 芯片:壁仞 BR、寒武纪 MLU、沐曦 MetaX、曦云 Sunrise(多厂商混合调度)
- 可用区:覆盖华东、华北、华南多个国内可用区,自动就近路由
- 扩缩:无服务器自动扩缩,从空闲到每分钟数百万 Token
- 大批量场景:提供 批量推理(异步、低成本)
推理优化
wylon 在整个链路上应用了开源与自研优化的组合。整体效果可保留原模型 约 99% 的输出质量,同时相比原生服务带来 2–5× 的吞吐提升。
| 技术 | 作用 |
|---|---|
| KV 缓存 | 复用前序 Token 的 key/value 张量,跳过冗余计算。 |
| 分页注意力 | 将长序列切分为页,消除内存碎片。 |
| Flash Attention | 融合的注意力内核 + 分块 Softmax — 更快、更省内存。 |
| 量化 | FP8 / INT4 权重压缩,降低内存占用并提升速度。 |
| 连续批处理 | 在 Token 粒度合并进行中请求,提高 GPU 利用率。 |
| 上下文缓存 | 为重复前缀(系统提示、文档)存储中间层输出。 |
| 推测解码 | 小草稿模型预测多个 Token,大模型一次性验证。 |
一个最小请求
同一端点支持所有文本生成模型。更换 model ID 即可对比。
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["WYLON_API_KEY"],
base_url="https://api.wylon.cn/v1",
)
resp = client.chat.completions.create(
model="moonshotai/kimi-k2.5",
messages=[{"role": "user", "content": "用两句话总结 RLHF。"}],
)
print(resp.choices[0].message.content)
curl https://api.wylon.cn/v1/chat/completions \
-H "Authorization: Bearer $WYLON_API_KEY" \
-H "Content-Type: application/json" \
-d '{"model":"moonshotai/kimi-k2.5","messages":[{"role":"user","content":"用两句话总结 RLHF。"}]}'
可调参数
API 接受 OpenAI 兼容的常用采样参数,包括 temperature、top_p、
max_tokens、presence_penalty、frequency_penalty、
stop、seed 等。
完整参数清单与默认值见 对话补全。