wylon

推理概览

wylon 新云 Token 工厂的推理引擎原生构建于国产 GPU 芯片(壁仞、寒武纪、沐曦、曦云)之上,以超节点架构调度算力,通过兼容 OpenAI 与 Anthropic 的 API 对外提供推理服务。默认采用无服务器架构,按 Token 计费;面向大流量异步场景另提供 批量推理

bolt
无需管理基础设施。 发送请求、获取响应即可。连续批处理、自动扩缩与跨异构国产 GPU 的路由都由 wylon 处理, 你只需专注于应用层。

可用模型类别

目前覆盖三类模型,通过同一 对话补全 接口访问;完整模型列表见 模型目录

类别 示例模型 典型用途
文本生成 MiniMax M2、Kimi K2、GLM-4.6、Qwen3、DeepSeek V3.2 对话、推理、代码、工具使用
视觉语言 Kimi-VL、Qwen3-VL、GLM-4V 图像理解、文档解析
嵌入 BGE、Qwen3-Embedding 语义搜索、RAG、聚类

基础设施

模型运行在 wylon 自建的国产算力底座上。调度器将你的请求路由至满足延迟目标的最具性价比节点;具体芯片型号对应用层透明。

推理优化

wylon 在整个链路上应用了开源与自研优化的组合。整体效果可保留原模型 约 99% 的输出质量,同时相比原生服务带来 2–5× 的吞吐提升。

技术作用
KV 缓存复用前序 Token 的 key/value 张量,跳过冗余计算。
分页注意力将长序列切分为页,消除内存碎片。
Flash Attention融合的注意力内核 + 分块 Softmax — 更快、更省内存。
量化FP8 / INT4 权重压缩,降低内存占用并提升速度。
连续批处理在 Token 粒度合并进行中请求,提高 GPU 利用率。
上下文缓存为重复前缀(系统提示、文档)存储中间层输出。
推测解码小草稿模型预测多个 Token,大模型一次性验证。

一个最小请求

同一端点支持所有文本生成模型。更换 model ID 即可对比。

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["WYLON_API_KEY"],
    base_url="https://api.wylon.cn/v1",
)

resp = client.chat.completions.create(
    model="moonshotai/kimi-k2.5",
    messages=[{"role": "user", "content": "用两句话总结 RLHF。"}],
)

print(resp.choices[0].message.content)
curl https://api.wylon.cn/v1/chat/completions \
  -H "Authorization: Bearer $WYLON_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"moonshotai/kimi-k2.5","messages":[{"role":"user","content":"用两句话总结 RLHF。"}]}'

可调参数

API 接受 OpenAI 兼容的常用采样参数,包括 temperaturetop_pmax_tokenspresence_penaltyfrequency_penaltystopseed 等。 完整参数清单与默认值见 对话补全

下一步

沪ICP备2026010432号-1 沪公网安备31010402336632号