Token 工厂

wylon新云Token工厂

主流开源 SOTA 模型的推理 Token 服务。兼容 OpenAI / Anthropic API，几行代码完成接入；系统级缓存默认启用，长上下文与高频前缀场景成本显著下降。

立即接入阅读文档

特点

国产推理，全新架构

基于国产GPU和超节点架构的新一代推理云

原生支持国产 GPU

全栈适配壁仞、寒武纪、沐曦、曦望等国产 GPU，针对各硬件特性调优算子、引擎调度和并行策略，提升主流模型的推理质量。

全新超节点架构

wylon 新云是率先采用超节点架构大规模部署推理云的服务商之一，以超节点为最小算力单元，跨卡高带宽互联。MoE、长上下文、多副本并发等典型负载下，显著提升通信效率，吞吐与尾延迟同步受益。

系统级缓存管理

缓存引擎贯穿全局请求调度，系统提示、检索片段、工具定义、多轮上下文均自动复用。Agent 长上下文场景首 Token 最高可提速 10×。

能力

快速接入，用量可见

兼容主流 API 规范

单一端点覆盖多个模型家族，无需修改现有对接协议即可切换推理平台。

Batch API

高吞吐量的Batch推理接口，适合对延迟不敏感的分析任务场景。

系统级缓存

跨请求、跨会话的上下文缓存，在降低延迟的同时减少重复 Token 费用。

全链路可观测

TTFT、TPS、缓存命中率及Token用量明细均实时可见。

熟悉的 API

简单修改，立马能跑

原生兼容 OpenAI 与 Anthropic API 规范，您现有的客户端、Agent、中间件无需重写。

三行完成配置

把 API 的 base URL 指向 api.wylon.cn，填入 wylon 新云密钥，选择一个 Token 工厂模型 ID——其余代码保持原样。

openai → 对话补全、工具调用、JSON 模式
anthropic → messages、流式输出
curl → 原生 HTTP + SSE

# pip install openai
                from openai import OpenAI

                client = OpenAI(
                base_url="https://api.wylon.cn/v1",
                api_key="wyl_...",
                )

                resp = client.chat.completions.create(
                model="kimi-k2.5",
                messages=[{"role": "user",
                "content": "你好，wylon 新云。"}],
                stream=True,
                )

                for chunk in resp:
                print(chunk.choices[0].delta.content, end="")
              

# pip install anthropic
                from anthropic import Anthropic

                client = Anthropic(
                base_url="https://api.wylon.cn/anthropic",
                api_key="wyl_...",
                )

                with client.messages.stream(
                model="claude-sonnet-4-6",
                max_tokens=1024,
                messages=[{"role": "user",
                "content": "你好，wylon 新云。"}],
                ) as stream:
                for text in stream.text_stream:
                print(text, end="")
              

// npm i openai
                import OpenAI from "openai";

                const client = new OpenAI({
                baseURL: "https://api.wylon.cn/v1",
                apiKey: process.env.WYLON_API_KEY,
                });

                const stream = await client.chat.completions.create({
                model: "kimi-k2.5",
                messages: [{ role: "user", content: "你好，wylon 新云。" }],
                stream: true,
                });

                for await (const chunk of stream) {
                process.stdout.write(chunk.choices[0]?.delta?.content ?? "");
                }
              

# 通过 SSE 的流式对话补全
                curl https://api.wylon.cn/v1/chat/completions \
                -H "Authorization: Bearer $WYLON_API_KEY" \
                -H "Content-Type: application/json" \
                -d '{
                  "model": "kimi-k2.5",
                  "stream": true,
                  "messages": [
                  { "role": "user", "content": "你好，wylon 新云。" }
                  ]
                  }'

其他特点

有保障、高配额、适配广

99.9%

可用性 SLA

10×

首 Token 加速（高缓存命中场景）

1M+

每分钟Token处理能力（高Tier等级）

多款国产GPU品牌支持：壁仞/寒武纪/沐曦/曦望等

常见问题

支持哪些模型？

覆盖主流开源模型：MiniMax、Kimi、GLM、Qwen、DeepSeek。完整模型列表及特性见模型目录。

是否支持企业级服务？

支持。面向企业客户提供专属方案，请通过联系我们和解决方案团队沟通。

wylon新云会怎么管理我的数据？

wylon 新云采用合规方案管理您的数据，不会将您的数据用于模型训练或其他商业目的。您可以随时要求删除您的数据。详情请见隐私政策。

我想用的模型在列表中没有看到怎么办？

我们根据业内模型技术的发展和用户的需求情况，持续接入新的大模型。企业客户可以通过解决方案团队申请模型接入或专属部署支持。

立即开始

注册登录，开始第一次推理请求。

注册并完成认证，即可获取 API 密钥与新手额度，也欢迎直接联系我们。

开始访问 → 联系我们