推理/推理可观测性

推理可观测性

wylon 新云对每一次推理调用都进行端到端度量。开箱即用的控制台仪表盘提供流量、延迟、错误与容量遥测，并通过兼容 Prometheus 的指标 API 将数据导入你自己的技术栈。

你能得到什么

每个模型与端点在 Web 控制台都有预置仪表盘。
近实时更新 — 指标通常在几十秒内可见。
分位数延迟统计 — p50 / p90 / p99，不只是平均值。
Prometheus & Grafana 集成，可对接你自己的仪表盘与告警。
请求日志，可按需开启载荷捕获以便调试。

可用指标

类别	指标	说明
流量	`wylon_requests_per_minute`	每分钟总请求数。
	`wylon_input_tokens_per_minute`	每分钟输入（提示）Token 数。
	`wylon_output_tokens_per_minute`	每分钟生成输出 Token 数。
延迟	`wylon_request_duration_seconds`	从发送请求到完整响应返回的端到端耗时。
	`wylon_time_to_first_token_seconds`	TTFT — 首个流式 Token 延迟。
	`wylon_output_tokens_per_second`	首 Token 之后的输出速度。
容量	`wylon_batch_jobs_in_progress`	正在执行的批量推理任务数。
容量	`wylon_queue_depth`	等待 GPU 时隙的排队请求数。
错误	`wylon_error_rate`	失败请求占比，按 HTTP 状态码分组（4xx, 429, 5xx）。
错误	`wylon_success_rate`	2xx 响应占比。

筛选与维度

所有指标都可以按以下标签的任意组合切片。

时间范围（5 分钟 / 1 小时 / 24 小时 / 7 天 / 自定义）
模型（例如 moonshotai/Kimi-K2）
调用类型（实时对话补全 / 批量推理）
项目 / API 密钥
错误码（HTTP 状态码）
提示长度分桶 / 延迟区间

指标 API

Prometheus 格式端点会返回所有指标的当前值。

curl https://api.wylon.cn/v1/metrics \
  -H "Authorization: Bearer $WYLON_API_KEY"

# kimi-k2.5 的 p99 TTFT，近 15 分钟
histogram_quantile(0.99,
  sum(rate(wylon_time_to_first_token_seconds_bucket{model="moonshotai/kimi-k2.5"}[15m])) by (le)
)

# 按状态码分组的错误率，近 1 小时
sum(rate(wylon_error_rate[1h])) by (status_class)

导出器

目标	方式
Prometheus	使用 Bearer Token 鉴权抓取 `/v1/metrics`。
Grafana®	将 Prometheus 数据源指向同一 URL；示例集中提供了入门仪表盘 JSON。
OpenTelemetry	通过 Collector Sidecar 将 Spans 与指标推送到任意兼容 OTLP 的接收端。
Datadog / New Relic	使用它们的 OTLP 接入端点搭配 OTel Collector。

请求日志

每个请求的结构化 JSON 日志保留 30 天。载荷捕获（提示与补全内容）默认关闭，仅按项目在需要时开启 — 它会影响计费，并涉及明显的隐私考量。

shield

提示中的个人信息。请将载荷捕获视为可能包含个人数据的任何日志来对待。保留策略与区域控制详见隐私政策与数据处理。

访问控制

指标与日志的可见性遵循你的组织角色：

组织管理员 — 对所有项目完全可见。
项目管理员 — 对所属项目完全可见。
项目成员 — 对分配的项目仅可见指标（不含原始载荷）。

常见问题

指标的新鲜度如何？
近实时 — 从请求完成到仪表盘显示通常小于 30 秒。

抓取 /v1/metrics 是否有费用？
没有。指标对所有套餐均免费。大流量日志外发可能产生流量费。

能否把日志与客户端链路关联起来？
可以 — 请求中带上 traceparent 头（W3C Trace Context），wylon 的 Span 会在内部传播它。