wylon

快速开始

Token 工厂 是 wylon 新云面向开发者的推理服务,一站式接入主流 SOTA 开源大模型——覆盖 MiniMax、Kimi、GLM、Qwen、DeepSeek 等家族,运行在自建国产 GPU 算力底座上。从原型实验到生产部署使用同一套 OpenAI / Anthropic 兼容 API,几分钟内即可完成第一次调用。

概览

通过 wylon 新云,你可以浏览 模型目录 选择合适的模型, 通过兼容 OpenAI / Anthropic 的 API 把推理能力集成到自己的应用中。与主流框架无缝对接——LangChain、LlamaIndex、LiteLLM、OpenAI SDK 等等。

在 wylon 新云上你可以:

立即开始构建

按下面三个步骤,向 Token 工厂发出第一个请求。

  1. 注册账户

    前往控制台免费注册 wylon 新云账户。完成实名认证后即可使用全部模型; 计费与用量 一节说明了套餐与免费额度细则。

    info
    已经在使用 OpenAI 或 Anthropic?wylon 与其 SDK 无缝兼容,几分钟内即可完成迁移。 参见 从 OpenAI / Anthropic 迁移
  2. 创建 API 密钥

    在控制台进入 账户设置 → API 密钥,点击 创建新密钥,复制生成的 API Token。详细的密钥管理与权限说明见 API 密钥

    将其设置为 Shell 环境变量,以便下方示例代码完成鉴权:

    # 添加到 ~/.bashrc 或 ~/.profile
    export WYLON_API_KEY="wl-••••••••••••••••••••••••••••••••"
    export WYLON_BASE_URL="https://api.wylon.cn/v1"
    # 添加到 ~/.zshrc
    export WYLON_API_KEY="wl-••••••••••••••••••••••••••••••••"
    export WYLON_BASE_URL="https://api.wylon.cn/v1"
    # PowerShell — 对当前用户持久生效
    [Environment]::SetEnvironmentVariable("WYLON_API_KEY", "wl-••••••••••••••••••••••••••••••••", "User")
    [Environment]::SetEnvironmentVariable("WYLON_BASE_URL", "https://api.wylon.cn/v1", "User")
    key
    妥善保管密钥。 切勿将 API 密钥提交至代码仓库,或打包进客户端产物。 生产环境请使用密钥管理服务或服务端代理。
  3. 发送第一个请求

    下面以 OpenAI 兼容接口为例。
    将任意符合 OpenAI 规范的客户端指向 https://api.wylon.cn/v1,并选择一个受支持的 模型 ID。 下方示例以一条简单的对话 prompt 调用 Kimi K2。

    from openai import OpenAI
    import os
    
    client = OpenAI(
        api_key=os.environ["WYLON_API_KEY"],
        base_url="https://api.wylon.cn/v1",
    )
    
    response = client.chat.completions.create(
        model="moonshotai/kimi-k2.5",
        messages=[
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "Explain KV cache in one paragraph."},
        ],
        temperature=0.6,
        max_tokens=512,
    )
    
    print(response.choices[0].message.content)
    import OpenAI from "openai";
    
    const client = new OpenAI({
      apiKey: process.env.WYLON_API_KEY,
      baseURL: "https://api.wylon.cn/v1",
    });
    
    const response = await client.chat.completions.create({
      model: "moonshotai/kimi-k2.5",
      messages: [
        { role: "system", content: "You are a helpful assistant." },
        { role: "user",   content: "Explain KV cache in one paragraph." },
      ],
      temperature: 0.6,
      max_tokens: 512,
    });
    
    console.log(response.choices[0].message.content);
    curl https://api.wylon.cn/v1/chat/completions \
      -H "Content-Type: application/json" \
      -H "Authorization: Bearer $WYLON_API_KEY" \
      -d '{
        "model": "moonshotai/kimi-k2.5",
        "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user",   "content": "Explain KV cache in one paragraph."}
        ],
        "temperature": 0.6,
        "max_tokens": 512
      }'
    package main
    
    import (
        "context"
        "fmt"
        "os"
    
        "github.com/sashabaranov/go-openai"
    )
    
    func main() {
        cfg := openai.DefaultConfig(os.Getenv("WYLON_API_KEY"))
        cfg.BaseURL = "https://api.wylon.cn/v1"
        client := openai.NewClientWithConfig(cfg)
    
        resp, err := client.CreateChatCompletion(context.Background(),
            openai.ChatCompletionRequest{
                Model: "moonshotai/kimi-k2.5",
                Messages: []openai.ChatCompletionMessage{
                    {Role: "user", Content: "Explain KV cache in one paragraph."},
                },
            })
        if err != nil { fmt.Println(err); return }
        fmt.Println(resp.Choices[0].Message.Content)
    }

    请求成功后,响应会返回模型输出内容、消耗的 Token 数量,以及 wylon 新云系统级缓存的命中率。

    {
      "id": "cmpl-9f1c7b2e8a41",
      "object": "chat.completion",
      "model": "moonshotai/kimi-k2.5",
      "created": 1744828800,
      "choices": [{
        "index": 0,
        "message": {
          "role": "assistant",
          "content": "KV cache stores the key and value tensors …"
        },
        "finish_reason": "stop"
      }],
      "usage": {
        "prompt_tokens": 24,
        "completion_tokens": 128,
        "total_tokens": 152,
        "cache_hit_ratio": 0.71      // wylon 扩展字段:上下文缓存命中率
      }
    }

    usage 中的 cache_hit_ratio 是 wylon 在 OpenAI 兼容协议之上的扩展字段, 标识本次请求命中系统级上下文缓存的比例(重复前缀越多,命中率越高、成本越低)。 其余字段与 OpenAI 协议一致。

API 接入点

Token 工厂的推理 API 与 OpenAI 协议保持一致。下表列出最常用的端点。

方法与路径 用途 说明
POST  /chat/completions 对话式生成 支持流式、工具调用结构化输出
POST  /completions 传统文本补全 适用于没有对话模板的模型。
GET  /models 列出可用模型 返回当前账户可用的模型 ID 列表。
POST  /batches 提交批量任务 异步处理大批量请求,享受更优定价。详见 批量推理

常用参数

每次对话补全请求都接受以下参数,默认值在质量与延迟之间取得平衡。

参数 类型 说明
model string 模型 ID,例如 moonshotai/kimi-k2.5。查看 全部模型
messages array 有序的 {role, content} 对话轮次列表。角色可选 systemuserassistanttool
temperature number 采样温度,取值 02,默认 0.7
max_tokens integer 最大生成 token 数,受模型上下文窗口限制。
stream boolean 以 Server-Sent Events 方式返回 token 增量流。
tools array 模型可调用的函数定义。参见 函数调用
response_format object 强制 JSON 或指定的 Schema。参见 结构化输出

继续探索

一切就绪。继续深入了解你下一步需要的能力。

需要帮助?

如遇问题,欢迎通过 联系我们 获取支持; 实时服务状态见 服务状态页

沪ICP备2026010432号-1 沪公网安备31010402336632号