Token 工厂

wylon新云Token工厂

主流开源 SOTA 模型的推理 Token 服务。兼容 OpenAI / Anthropic API,几行代码完成接入;系统级缓存默认启用,长上下文与高频前缀场景成本显著下降。

特点

国产推理,全新架构

基于国产GPU和超节点架构的新一代推理云

01

原生支持国产 GPU

全栈适配壁仞、寒武纪、沐曦、曦望等国产 GPU,针对各硬件特性调优算子、引擎调度和并行策略,提升主流模型的推理质量。

02

全新超节点架构

wylon 新云是率先采用超节点架构大规模部署推理云的服务商之一,以超节点为最小算力单元,跨卡高带宽互联。MoE、长上下文、多副本并发等典型负载下,显著提升通信效率,吞吐与尾延迟同步受益。

03

系统级缓存管理

缓存引擎贯穿全局请求调度,系统提示、检索片段、工具定义、多轮上下文均自动复用。Agent 长上下文场景首 Token 最高可提速 10×。

能力

快速接入,用量可见

01

兼容主流 API 规范

单一端点覆盖多个模型家族,无需修改现有对接协议即可切换推理平台。

02

Batch API

高吞吐量的Batch推理接口,适合对延迟不敏感的分析任务场景。

03

系统级缓存

跨请求、跨会话的上下文缓存,在降低延迟的同时减少重复 Token 费用。

04

全链路可观测

TTFT、TPS、缓存命中率及Token用量明细均实时可见。

熟悉的 API

简单修改,立马能跑

原生兼容 OpenAI 与 Anthropic API 规范,您现有的客户端、Agent、中间件无需重写。

三行完成配置

把 API 的 base URL 指向 api.wylon.cn,填入 wylon 新云密钥,选择一个 Token 工厂模型 ID——其余代码保持原样。

  • openai  → 对话补全、工具调用、JSON 模式
  • anthropic  → messages、流式输出
  • curl  → 原生 HTTP + SSE
# pip install openai from openai import OpenAI client = OpenAI( base_url="https://api.wylon.cn/v1", api_key="wyl_...", ) resp = client.chat.completions.create( model="kimi-k2.5", messages=[{"role": "user", "content": "你好,wylon 新云。"}], stream=True, ) for chunk in resp: print(chunk.choices[0].delta.content, end="")
# pip install anthropic from anthropic import Anthropic client = Anthropic( base_url="https://api.wylon.cn/anthropic", api_key="wyl_...", ) with client.messages.stream( model="claude-sonnet-4-6", max_tokens=1024, messages=[{"role": "user", "content": "你好,wylon 新云。"}], ) as stream: for text in stream.text_stream: print(text, end="")
// npm i openai import OpenAI from "openai"; const client = new OpenAI({ baseURL: "https://api.wylon.cn/v1", apiKey: process.env.WYLON_API_KEY, }); const stream = await client.chat.completions.create({ model: "kimi-k2.5", messages: [{ role: "user", content: "你好,wylon 新云。" }], stream: true, }); for await (const chunk of stream) { process.stdout.write(chunk.choices[0]?.delta?.content ?? ""); }
# 通过 SSE 的流式对话补全 curl https://api.wylon.cn/v1/chat/completions \ -H "Authorization: Bearer $WYLON_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "kimi-k2.5", "stream": true, "messages": [ { "role": "user", "content": "你好,wylon 新云。" } ] }'
其他特点

有保障、高配额、适配广

99.9%
可用性 SLA
10×
首 Token 加速(高缓存命中场景)
1M+
每分钟Token处理能力(高Tier等级)
6+
多款国产GPU品牌支持:壁仞/寒武纪/沐曦/曦望等

常见问题

支持哪些模型?

覆盖主流开源模型:MiniMax、Kimi、GLM、Qwen、DeepSeek。完整模型列表及特性见模型目录

是否支持企业级服务?

支持。面向企业客户提供专属方案,请通过联系我们和解决方案团队沟通。

wylon新云会怎么管理我的数据?

wylon 新云采用合规方案管理您的数据,不会将您的数据用于模型训练或其他商业目的。您可以随时要求删除您的数据。详情请见隐私政策

我想用的模型在列表中没有看到怎么办?

我们根据业内模型技术的发展和用户的需求情况,持续接入新的大模型。企业客户可以通过解决方案团队申请模型接入或专属部署支持。

立即开始

注册登录,开始第一次推理请求。

注册并完成认证,即可获取 API 密钥与新手额度,也欢迎直接联系我们。