跳到主要内容

可观测性与运维

本目录回答生产问题如何定位。Agent 上线后,问题通常不是“模型错了”这么简单,而是输入、提示词、检索、工具、权限、模型、网络、成本、用户反馈、业务状态共同作用。可观测性的目标是让团队能从一次失败回溯到可修复的工程原因。

目录

文件解决的问题
Agent日志体系.md应该记录哪些结构化日志,如何脱敏和审计
Trace与Span.md如何用 trace/span 还原一次 Agent 执行
工具调用链路追踪.md工具选择、参数、返回、错误如何定位
Token与成本监控.md如何监控 token、费用、重试和成本异常
用户反馈闭环.md如何把用户反馈转为评测和回归样本
异常告警.md如何设计告警,避免漏报和噪声
失败案例分析.md如何从失败 trace 归因到可执行修复
生产仪表盘设计.md运维、产品、研发、安全分别看什么面板

定位主线

最小可观测性标准

能力最低要求
请求关联每次任务有 trace_id,贯穿网关、Agent、工具、数据库
结构化日志关键事件 JSON 化,不依赖自由文本搜索
Span 拆分模型、工具、检索、护栏、人工接管分别记录
成本监控token、模型费用、工具费用、重试费用按任务聚合
安全审计高风险工具调用保留版本、权限、确认、参数摘要
反馈闭环用户反馈能回到具体 trace,并进入失败案例库

权威资料