可观测性与运维

本目录回答生产问题如何定位。Agent 上线后，问题通常不是“模型错了”这么简单，而是输入、提示词、检索、工具、权限、模型、网络、成本、用户反馈、业务状态共同作用。可观测性的目标是让团队能从一次失败回溯到可修复的工程原因。

定位主线

能力	最低要求
请求关联	每次任务有 trace_id，贯穿网关、Agent、工具、数据库
结构化日志	关键事件 JSON 化，不依赖自由文本搜索
Span 拆分	模型、工具、检索、护栏、人工接管分别记录
成本监控	token、模型费用、工具费用、重试费用按任务聚合
安全审计	高风险工具调用保留版本、权限、确认、参数摘要
反馈闭环	用户反馈能回到具体 trace，并进入失败案例库

OpenTelemetry traces: https://opentelemetry.io/docs/concepts/signals/traces/ （核对日期：2026-05-09）
OpenTelemetry logs: https://opentelemetry.io/docs/concepts/signals/logs/ （核对日期：2026-05-09）
W3C Trace Context: https://www.w3.org/TR/trace-context/ （核对日期：2026-05-09）
OpenAI Agents SDK tracing: https://openai.github.io/openai-agents-python/tracing/ （核对日期：2026-05-09）
LangSmith Observability docs: https://docs.langchain.com/langsmith/observability （核对日期：2026-05-09）
Google SRE Book - Monitoring Distributed Systems: https://sre.google/sre-book/monitoring-distributed-systems/ （核对日期：2026-05-09）