可观测性与运维
本目录回答生产问题如何定位。Agent 上线后,问题通常不是“模型错了”这么简单,而是输入、提示词、检索、工具、权限、模型、网络、成本、用户反馈、业务状态共同作用。可观测性的目标是让团队能从一次失败回溯到可修复的工程原因。
目录
| 文件 | 解决的问题 |
|---|---|
| Agent日志体系.md | 应该记录哪些结构化日志,如何脱敏和审计 |
| Trace与Span.md | 如何用 trace/span 还原一次 Agent 执行 |
| 工具调用链路追踪.md | 工具选择、参数、返回、错误如何定位 |
| Token与成本监控.md | 如何监控 token、费用、重试和成本异常 |
| 用户反馈闭环.md | 如何把用户反馈转为评测和回归样本 |
| 异常告警.md | 如何设计告警,避免漏报和噪声 |
| 失败案例分析.md | 如何从失败 trace 归因到可执行修复 |
| 生产仪表盘设计.md | 运维、产品、研发、安全分别看什么面板 |
定位主线
最小可观测性标准
| 能力 | 最低要求 |
|---|---|
| 请求关联 | 每次任务有 trace_id,贯穿网关、Agent、工具、数据库 |
| 结构化日志 | 关键事件 JSON 化,不依赖自由文本搜索 |
| Span 拆分 | 模型、工具、检索、护栏、人工接管分别记录 |
| 成本监控 | token、模型费用、工具费用、重试费用按任务聚合 |
| 安全审计 | 高风险工具调用保留版本、权限、确认、参数摘要 |
| 反馈闭环 | 用户反馈能回到具体 trace,并进入失败案例库 |
权威资料
- OpenTelemetry traces: https://opentelemetry.io/docs/concepts/signals/traces/ (核对日期:2026-05-09)
- OpenTelemetry logs: https://opentelemetry.io/docs/concepts/signals/logs/ (核对日期:2026-05-09)
- W3C Trace Context: https://www.w3.org/TR/trace-context/ (核对日期:2026-05-09)
- OpenAI Agents SDK tracing: https://openai.github.io/openai-agents-python/tracing/ (核对日期:2026-05-09)
- LangSmith Observability docs: https://docs.langchain.com/langsmith/observability (核对日期:2026-05-09)
- Google SRE Book - Monitoring Distributed Systems: https://sre.google/sre-book/monitoring-distributed-systems/ (核对日期:2026-05-09)