特点
国产推理,全新架构
基于国产GPU和超节点架构的新一代推理云
01
原生支持国产 GPU
全栈适配壁仞、寒武纪、沐曦、曦望等国产 GPU,针对各硬件特性调优算子、引擎调度和并行策略,提升主流模型的推理质量。
02
全新超节点架构
wylon 新云是率先采用超节点架构大规模部署推理云的服务商之一,以超节点为最小算力单元,跨卡高带宽互联。MoE、长上下文、多副本并发等典型负载下,显著提升通信效率,吞吐与尾延迟同步受益。
03
系统级缓存管理
缓存引擎贯穿全局请求调度,系统提示、检索片段、工具定义、多轮上下文均自动复用。Agent 长上下文场景首 Token 最高可提速 10×。
能力
快速接入,用量可见
01
兼容主流 API 规范
单一端点覆盖多个模型家族,无需修改现有对接协议即可切换推理平台。
02
Batch API
高吞吐量的Batch推理接口,适合对延迟不敏感的分析任务场景。
03
系统级缓存
跨请求、跨会话的上下文缓存,在降低延迟的同时减少重复 Token 费用。
04
全链路可观测
TTFT、TPS、缓存命中率及Token用量明细均实时可见。
熟悉的 API
简单修改,立马能跑
原生兼容 OpenAI 与 Anthropic API 规范,您现有的客户端、Agent、中间件无需重写。
三行完成配置
把 API 的 base URL 指向 api.wylon.cn,填入 wylon 新云密钥,选择一个 Token 工厂模型 ID——其余代码保持原样。
- openai → 对话补全、工具调用、JSON 模式
- anthropic → messages、流式输出
- curl → 原生 HTTP + SSE
# pip install openai
from openai import OpenAI
client = OpenAI(
base_url="https://api.wylon.cn/v1",
api_key="wyl_...",
)
resp = client.chat.completions.create(
model="kimi-k2.5",
messages=[{"role": "user",
"content": "你好,wylon 新云。"}],
stream=True,
)
for chunk in resp:
print(chunk.choices[0].delta.content, end="")
# pip install anthropic
from anthropic import Anthropic
client = Anthropic(
base_url="https://api.wylon.cn/anthropic",
api_key="wyl_...",
)
with client.messages.stream(
model="claude-sonnet-4-6",
max_tokens=1024,
messages=[{"role": "user",
"content": "你好,wylon 新云。"}],
) as stream:
for text in stream.text_stream:
print(text, end="")
// npm i openai
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://api.wylon.cn/v1",
apiKey: process.env.WYLON_API_KEY,
});
const stream = await client.chat.completions.create({
model: "kimi-k2.5",
messages: [{ role: "user", content: "你好,wylon 新云。" }],
stream: true,
});
for await (const chunk of stream) {
process.stdout.write(chunk.choices[0]?.delta?.content ?? "");
}
# 通过 SSE 的流式对话补全
curl https://api.wylon.cn/v1/chat/completions \
-H "Authorization: Bearer $WYLON_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "kimi-k2.5",
"stream": true,
"messages": [
{ "role": "user", "content": "你好,wylon 新云。" }
]
}'
其他特点
有保障、高配额、适配广
99.9%
可用性 SLA
10×
首 Token 加速(高缓存命中场景)
1M+
每分钟Token处理能力(高Tier等级)
6+
多款国产GPU品牌支持:壁仞/寒武纪/沐曦/曦望等