推理可观测性
wylon 新云对每一次推理调用都进行端到端度量。开箱即用的控制台仪表盘提供流量、延迟、错误与容量遥测,并通过兼容 Prometheus 的指标 API 将数据导入你自己的技术栈。
你能得到什么
- 每个模型与端点在 Web 控制台都有预置仪表盘。
- 近实时更新 — 指标通常在几十秒内可见。
- 分位数延迟统计 — p50 / p90 / p99,不只是平均值。
- Prometheus & Grafana 集成,可对接你自己的仪表盘与告警。
- 请求日志,可按需开启载荷捕获以便调试。
可用指标
| 类别 | 指标 | 说明 |
|---|---|---|
| 流量 | wylon_requests_per_minute | 每分钟总请求数。 |
wylon_input_tokens_per_minute | 每分钟输入(提示)Token 数。 | |
wylon_output_tokens_per_minute | 每分钟生成输出 Token 数。 | |
| 延迟 | wylon_request_duration_seconds | 从发送请求到完整响应返回的端到端耗时。 |
wylon_time_to_first_token_seconds | TTFT — 首个流式 Token 延迟。 | |
wylon_output_tokens_per_second | 首 Token 之后的输出速度。 | |
| 容量 | wylon_batch_jobs_in_progress | 正在执行的 批量推理 任务数。 |
wylon_queue_depth | 等待 GPU 时隙的排队请求数。 | |
| 错误 | wylon_error_rate | 失败请求占比,按 HTTP 状态码分组(4xx, 429, 5xx)。 |
wylon_success_rate | 2xx 响应占比。 |
筛选与维度
所有指标都可以按以下标签的任意组合切片。
- 时间范围(5 分钟 / 1 小时 / 24 小时 / 7 天 / 自定义)
- 模型(例如
moonshotai/Kimi-K2) - 调用类型(实时对话补全 / 批量推理)
- 项目 / API 密钥
- 错误码(HTTP 状态码)
- 提示长度分桶 / 延迟区间
指标 API
Prometheus 格式端点会返回所有指标的当前值。
curl https://api.wylon.cn/v1/metrics \
-H "Authorization: Bearer $WYLON_API_KEY"
# kimi-k2.5 的 p99 TTFT,近 15 分钟
histogram_quantile(0.99,
sum(rate(wylon_time_to_first_token_seconds_bucket{model="moonshotai/kimi-k2.5"}[15m])) by (le)
)
# 按状态码分组的错误率,近 1 小时
sum(rate(wylon_error_rate[1h])) by (status_class)
导出器
| 目标 | 方式 |
|---|---|
| Prometheus | 使用 Bearer Token 鉴权抓取 /v1/metrics。 |
| Grafana® | 将 Prometheus 数据源指向同一 URL;示例集中提供了入门仪表盘 JSON。 |
| OpenTelemetry | 通过 Collector Sidecar 将 Spans 与指标推送到任意兼容 OTLP 的接收端。 |
| Datadog / New Relic | 使用它们的 OTLP 接入端点搭配 OTel Collector。 |
请求日志
每个请求的结构化 JSON 日志保留 30 天。载荷捕获(提示与补全内容)默认关闭, 仅按项目在需要时开启 — 它会影响计费,并涉及明显的隐私考量。
访问控制
指标与日志的可见性遵循你的组织角色:
- 组织管理员 — 对所有项目完全可见。
- 项目管理员 — 对所属项目完全可见。
- 项目成员 — 对分配的项目仅可见指标(不含原始载荷)。
常见问题
指标的新鲜度如何?
近实时 — 从请求完成到仪表盘显示通常小于 30 秒。
抓取 /v1/metrics 是否有费用?
没有。指标对所有套餐均免费。大流量日志外发可能产生流量费。
能否把日志与客户端链路关联起来?
可以 — 请求中带上 traceparent 头(W3C Trace Context),wylon 的 Span 会在内部传播它。