国产大模型推理
用 wylon 新云

wylon 新云是基于国产 GPU 芯片，以超节点架构构建的，面向开发者与企业的大模型推理云服务平台

体验 Token 工厂联系我们

核心产品 · Token 工厂

Token 工厂（即将开放注册）

按 Token 计费的大模型推理服务，覆盖主流领先的开源模型。兼容 OpenAI、Anthropic API，简单配置即可接入。

支持主流开源模型品牌：MiniMax · Kimi · GLM · Qwen · DeepSeek

MiniMax

主打长上下文与生产力场景，适合文档处理、摘要、多轮业务对话。

代表MiniMax M2.5

典型上下文长文本 / 结构化

适用企业知识 / 长文档

Moonshot

Kimi

多模态、超长上下文与代码类任务稳定，是 Agent 与研发工具链的常用底座。

代表Kimi K2.5

典型上下文长对话 / 代码仓

适用Agent / IDE / 研究

智谱 · Z.ai

GLM

在中文语料上具备优势，覆盖通用对话、工具使用与智能体工程。

代表GLM 5

典型上下文通用对话 / 工具调用

适用智能客服 / 中文业务

通义千问

Qwen

模型线完整，从端侧小模型到旗舰 MoE 均已覆盖，兼顾性能与成本。

代表Qwen3 / Qwen2.5-VL

典型上下文通用 / 多语 / 多模态

适用内容 / RAG / 视觉

DeepSeek

在推理、代码与数学任务上有口碑，MoE 路线提供了优秀的性价比。

代表DeepSeek-V3 / R1

典型上下文推理 / 代码 / 思维链

适用代码 / Agent 规划

还有更多

完整列表、上下文长度与定价见模型目录与定价页。

查看模型目录→ 阅读文档→

核心产品 · GPU 服务

GPU 服务（敬请期待）

原生基于国产 GPU 的算力服务，提供三种形态。GPU 服务产品尚未开放，欢迎联系销售预约早期访问。

实例级

GPU Instance

按需的单卡或多卡 GPU 实例容器，分钟级交付，按小时计费。

裸金属

Bare-Metal

整机独占的 GPU 服务器，提供完整的硬件控制权与资源隔离。

集群级

Cluster

基于多节点组网的大规模算力池，面向大规模推理场景。

申请早期访问

核心技术

端到端的推理系统

国产 GPU超节点架构，系统级软硬件调优

01 wylon Token工厂

02 云端推理引擎

03 卧龙超节点平台

深度整合的Token工厂

兼容性良好的 API

兼容 OpenAI 与 Anthropic API 规范，简单配置，即可使用。

全链路可观测

TTFT、TPS、缓存命中率及Token用量明细均实时可见。

系统级 KV 缓存加速

专属 KV Cache引擎，支持混合分层管理，显著加速推理。

拓扑感知的 MoE 加速

通过超节点架构，实现对张量、流水线与专家并行（TP/PP/EP）的拓扑感知调度优化。

多节点高可用

具备面向大模型推理的多种调度策略，提供灵活、支持弹性扩缩容的GPU集群架构。

国产GPU基础设施

广泛支持包括寒武纪、壁仞、曦望、沐曦等在内的多家国产GPU厂商。

GPU 高性能互联拓扑设计

面向大规模推理，与 MoE 并行协同设计的 GPU 通信拓扑。

出色的推理能效设计

卧龙超节点平台对 GPU 调度、批处理与散热进行协同优化，为大规模服务实现高能效。

为何选择 wylon 新云

为大模型推理场景而设计

全栈协同设计

从硬件兼容性、超节点系统架构、模型推理引擎到API服务的端到端一体化云化基础设施，提升整合程度，降低性能损耗。

99.9%

可用性 SLA

Token工厂可用性最高达 99.9 %，适配生产级负载。

运维负担

开箱即用的推理API，无需基础设施管理。

10×

加速

依托系统级缓存技术，预填充速度可达常规方案的 10 倍。

国产芯片家族

壁仞、寒武纪、沐曦、曦望等多款国产算力原生兼容。

了解更多

了解更多关于 wylon 新云的信息。

阅读文档→

芯片合作伙伴

立即开始

试用wylon新云的Token工厂

Token工厂已正式开放注册，几分钟内即可完成集成；GPU服务正在接受早期访问申请。

接入 Token 工厂联系销售

国产大模型推理 用 wylon 新云