指南 / 快速开始

快速开始

Token 工厂是 wylon 新云面向开发者的推理服务，一站式接入主流 SOTA 开源大模型——覆盖 MiniMax、Kimi、GLM、Qwen、DeepSeek 等家族，运行在自建国产 GPU 算力底座上。从原型实验到生产部署使用同一套 OpenAI / Anthropic 兼容 API，几分钟内即可完成第一次调用。

概览

通过 wylon 新云，你可以浏览模型目录选择合适的模型，通过兼容 OpenAI / Anthropic 的 API 把推理能力集成到自己的应用中。与主流框架无缝对接——LangChain、LlamaIndex、LiteLLM、OpenAI SDK 等等。

在 wylon 新云上你可以：

发送请求——提示词、对话、图像——并接收流式响应。
借助第三方集成，将推理能力嵌入到你的应用与 Agent。

立即开始构建

按下面三个步骤，向 Token 工厂发出第一个请求。

注册账户

前往控制台免费注册 wylon 新云账户。完成实名认证后即可使用全部模型；计费与用量一节说明了套餐与免费额度细则。

info
已经在使用 OpenAI 或 Anthropic？wylon 与其 SDK 无缝兼容，几分钟内即可完成迁移。参见从 OpenAI / Anthropic 迁移。

创建 API 密钥

在控制台进入 账户设置 → API 密钥，点击 创建新密钥，复制生成的 API Token。详细的密钥管理与权限说明见 API 密钥。

将其设置为 Shell 环境变量，以便下方示例代码完成鉴权：

# 添加到 ~/.bashrc 或 ~/.profile
export WYLON_API_KEY="wl-••••••••••••••••••••••••••••••••"
export WYLON_BASE_URL="https://api.wylon.cn/v1"

# 添加到 ~/.zshrc
export WYLON_API_KEY="wl-••••••••••••••••••••••••••••••••"
export WYLON_BASE_URL="https://api.wylon.cn/v1"

# PowerShell — 对当前用户持久生效
[Environment]::SetEnvironmentVariable("WYLON_API_KEY", "wl-••••••••••••••••••••••••••••••••", "User")
[Environment]::SetEnvironmentVariable("WYLON_BASE_URL", "https://api.wylon.cn/v1", "User")

key

妥善保管密钥。 切勿将 API 密钥提交至代码仓库，或打包进客户端产物。生产环境请使用密钥管理服务或服务端代理。

发送第一个请求

下面以 OpenAI 兼容接口为例。
将任意符合 OpenAI 规范的客户端指向 https://api.wylon.cn/v1，并选择一个受支持的模型 ID。下方示例以一条简单的对话 prompt 调用 Kimi K2。

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["WYLON_API_KEY"],
    base_url="https://api.wylon.cn/v1",
)

response = client.chat.completions.create(
    model="moonshotai/kimi-k2.5",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain KV cache in one paragraph."},
    ],
    temperature=0.6,
    max_tokens=512,
)

print(response.choices[0].message.content)

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.WYLON_API_KEY,
  baseURL: "https://api.wylon.cn/v1",
});

const response = await client.chat.completions.create({
  model: "moonshotai/kimi-k2.5",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user",   content: "Explain KV cache in one paragraph." },
  ],
  temperature: 0.6,
  max_tokens: 512,
});

console.log(response.choices[0].message.content);

curl https://api.wylon.cn/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $WYLON_API_KEY" \
  -d '{
    "model": "moonshotai/kimi-k2.5",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user",   "content": "Explain KV cache in one paragraph."}
    ],
    "temperature": 0.6,
    "max_tokens": 512
  }'

package main

import (
    "context"
    "fmt"
    "os"

    "github.com/sashabaranov/go-openai"
)

func main() {
    cfg := openai.DefaultConfig(os.Getenv("WYLON_API_KEY"))
    cfg.BaseURL = "https://api.wylon.cn/v1"
    client := openai.NewClientWithConfig(cfg)

    resp, err := client.CreateChatCompletion(context.Background(),
        openai.ChatCompletionRequest{
            Model: "moonshotai/kimi-k2.5",
            Messages: []openai.ChatCompletionMessage{
                {Role: "user", Content: "Explain KV cache in one paragraph."},
            },
        })
    if err != nil { fmt.Println(err); return }
    fmt.Println(resp.Choices[0].Message.Content)
}

请求成功后，响应会返回模型输出内容、消耗的 Token 数量，以及 wylon 新云系统级缓存的命中率。

{
  "id": "cmpl-9f1c7b2e8a41",
  "object": "chat.completion",
  "model": "moonshotai/kimi-k2.5",
  "created": 1744828800,
  "choices": [{
    "index": 0,
    "message": {
      "role": "assistant",
      "content": "KV cache stores the key and value tensors …"
    },
    "finish_reason": "stop"
  }],
  "usage": {
    "prompt_tokens": 24,
    "completion_tokens": 128,
    "total_tokens": 152,
    "cache_hit_ratio": 0.71      // wylon 扩展字段：上下文缓存命中率
  }
}

usage 中的 cache_hit_ratio 是 wylon 在 OpenAI 兼容协议之上的扩展字段，标识本次请求命中系统级上下文缓存的比例（重复前缀越多，命中率越高、成本越低）。其余字段与 OpenAI 协议一致。

API 接入点

Token 工厂的推理 API 与 OpenAI 协议保持一致。下表列出最常用的端点。

方法与路径	用途	说明
POST /chat/completions	对话式生成	支持流式、工具调用、结构化输出。
POST /completions	传统文本补全	适用于没有对话模板的模型。
GET /models	列出可用模型	返回当前账户可用的模型 ID 列表。
POST /batches	提交批量任务	异步处理大批量请求，享受更优定价。详见批量推理。

常用参数

每次对话补全请求都接受以下参数，默认值在质量与延迟之间取得平衡。

参数	类型	说明
model	string	模型 ID，例如 `moonshotai/kimi-k2.5`。查看全部模型。
messages	array	有序的 `{role, content}` 对话轮次列表。角色可选 `system`、`user`、 `assistant`、`tool`。
temperature	number	采样温度，取值 `0` 到 `2`，默认 `0.7`。
max_tokens	integer	最大生成 token 数，受模型上下文窗口限制。
stream	boolean	以 Server-Sent Events 方式返回 token 增量流。
tools	array	模型可调用的函数定义。参见函数调用。
response_format	object	强制 JSON 或指定的 Schema。参见结构化输出。