wylon

推理可观测性

wylon 新云对每一次推理调用都进行端到端度量。开箱即用的控制台仪表盘提供流量、延迟、错误与容量遥测,并通过兼容 Prometheus 的指标 API 将数据导入你自己的技术栈。

你能得到什么

可用指标

类别指标说明
流量wylon_requests_per_minute每分钟总请求数。
wylon_input_tokens_per_minute每分钟输入(提示)Token 数。
wylon_output_tokens_per_minute每分钟生成输出 Token 数。
延迟wylon_request_duration_seconds从发送请求到完整响应返回的端到端耗时。
wylon_time_to_first_token_secondsTTFT — 首个流式 Token 延迟。
wylon_output_tokens_per_second首 Token 之后的输出速度。
容量wylon_batch_jobs_in_progress正在执行的 批量推理 任务数。
wylon_queue_depth等待 GPU 时隙的排队请求数。
错误wylon_error_rate失败请求占比,按 HTTP 状态码分组(4xx, 429, 5xx)。
wylon_success_rate2xx 响应占比。

筛选与维度

所有指标都可以按以下标签的任意组合切片。

指标 API

Prometheus 格式端点会返回所有指标的当前值。

curl https://api.wylon.cn/v1/metrics \
  -H "Authorization: Bearer $WYLON_API_KEY"
# kimi-k2.5 的 p99 TTFT,近 15 分钟
histogram_quantile(0.99,
  sum(rate(wylon_time_to_first_token_seconds_bucket{model="moonshotai/kimi-k2.5"}[15m])) by (le)
)

# 按状态码分组的错误率,近 1 小时
sum(rate(wylon_error_rate[1h])) by (status_class)

导出器

目标方式
Prometheus使用 Bearer Token 鉴权抓取 /v1/metrics
Grafana®将 Prometheus 数据源指向同一 URL;示例集中提供了入门仪表盘 JSON。
OpenTelemetry通过 Collector Sidecar 将 Spans 与指标推送到任意兼容 OTLP 的接收端。
Datadog / New Relic使用它们的 OTLP 接入端点搭配 OTel Collector。

请求日志

每个请求的结构化 JSON 日志保留 30 天。载荷捕获(提示与补全内容)默认关闭, 仅按项目在需要时开启 — 它会影响计费,并涉及明显的隐私考量。

shield
提示中的个人信息。请将载荷捕获视为可能包含个人数据的任何日志来对待。 保留策略与区域控制详见 隐私政策数据处理

访问控制

指标与日志的可见性遵循你的组织角色

常见问题

指标的新鲜度如何?
近实时 — 从请求完成到仪表盘显示通常小于 30 秒。

抓取 /v1/metrics 是否有费用?
没有。指标对所有套餐均免费。大流量日志外发可能产生流量费。

能否把日志与客户端链路关联起来?
可以 — 请求中带上 traceparent 头(W3C Trace Context),wylon 的 Span 会在内部传播它。

沪ICP备2026010432号-1 沪公网安备31010402336632号