12 Operator Observability

范围：

O1 telemetry-conventions

验收：

当前进展：

internal/observability/telemetry/names.go — 全量指标名、标签名、span 名、日志字段常量
internal/observability/telemetry/context.go — request_id / session_id / tenant_id / trace_id 上下文传播
internal/observability/telemetry/request_id.go — Gin RequestID 中间件，自动生成 UUID 并注入上下文
internal/observability/telemetry/logfields.go — FieldsFromContext() 从上下文构建 logrus.Fields
已集成到 internal/app/server/middleware.go，RequestID 中间件在 gin.Logger() 之前执行

验收：

当前进展：

internal/observability/metrics/registry.go — Prometheus Registry 封装，进程级单例 DefaultRegistry
internal/observability/metrics/http_metrics.go — HTTP 请求计数、延迟直方图、响应大小中间件
internal/observability/metrics/business_metrics.go — 会话/工单/路由/AI 计数器与直方图
internal/observability/metrics/prometheus.go — PrometheusHandler() 替代手写 metrics endpoint
已添加 prometheus/client_golang 依赖
已集成到 router（HTTPMetrics 中间件）和 health（/metrics Prometheus endpoint）
旧 internal/metrics/metrics.go 保持兼容，新 Prometheus 注册器并存

验收：

当前进展：

internal/observability/errors/errors.go — AppError type，Severity（user/dependency/config/system）、Category（auth/database/ai/routing/validation/rate_limit/internal/network）、Option 模式
internal/observability/errors/classify.go — Classify(err) 自动映射；特殊处理 llm.ProviderError
internal/observability/errors/metrics.go — errors_total Prometheus counter + RecordError()
internal/observability/errors/httpstatus.go — HTTPStatusFromError()、UserMessageFromError()

验收：

当前进展：

internal/observability/async/bus_middleware.go — BusMiddleware 装饰 eventbus.Handler，记录时长/成功/失败/死信
internal/observability/async/worker_tracker.go — ObservableWorker 装饰 bootstrap.Worker，记录 job 指标
internal/observability/async/dead_letter.go — DeadLetterRecorder interface + InMemoryDeadLetterRecorder
internal/observability/async/replay.go — ReplayService interface（stub 预留）

验收：

当前进展：

deploy/observability/dashboards/servify-service.json — 基础设施面板：HTTP 速率/延迟、错误率、速率限制、事件总线、Worker、Go Runtime
deploy/observability/dashboards/servify-business.json — 业务面板：会话、工单、路由、AI 请求量/延迟/Token
deploy/observability/alerts/rules.yaml — Prometheus 告警规则：5xx、P99 延迟、系统错误、事件失败、AI 降级、Worker 失败
deploy/observability/runbook/operational-runbook.md — 运维手册：告警排查步骤、常见操作、Metric 参考
已新增 servify check-observability-baseline --strict 与 scripts/check-observability-baseline.sh，可在部署前检查 metrics/tracing 配置与 dashboard/alert/runbook/collector 资产是否齐备