Skip to content

智能体生产化:可观测性与评估

课程视频预览

当智能体从实验室走向真实场景,“可观测性”和“系统评估”成为必不可少的能力。本节将帮助你将“黑盒”智能体打造成透明、可控、值得信赖的系统。

提示:在部署前务必确保智能体安全可信,可回看《06 构建可信赖的智能体》。

学习目标

  • 理解智能体可观测性与评估的核心概念;
  • 掌握提升性能、成本效率与效果的常用手段;
  • 学会如何体系化评估智能体表现;
  • 探索生产环境下的成本控制策略;
  • 了解如何为 AutoGen 等框架添加监测埋点。

Trace 与 Span

可观测性平台(如 LangfuseAzure AI Foundry)通常用 Trace/Span 表示一次智能体运行:

  • Trace:一次完整任务的执行流程;
  • Span:Trace 中的单个步骤,例如调用模型或检索工具。

Langfuse 中的 Trace 树

没有可观测性,智能体就像“黑盒”;引入监控后,系统成为“玻璃盒”,便于调试、优化与建立信任。

为什么生产环境需要可观测性

  • 调试与定位:当智能体输出异常,可通过 Trace 迅速追溯问题源头。
  • 延迟与成本管理:监控调用次数、延迟与费用,及时优化提示词、模型或流程。
  • 安全与合规:保留审计轨迹,识别 prompt injection、敏感内容泄露等风险。
  • 持续改进:将线上表现作为反馈,驱动线下迭代,实现“观察 → 实验 → 优化”的闭环。

关键指标

常见监控指标包括:

  • 延迟:响应速度,需关注整体任务与关键步骤的耗时。
  • 成本:每次执行的模型/工具开销,避免不必要的多次调用。
  • 请求错误:统计失败调用并设置重试或兜底策略。
  • 用户反馈(显性):点赞/差评、评论等直接信号。
  • 用户反馈(隐性):重复提问、立即修改等行为特征。
  • 准确率/成功率:按业务定义“成功”的标准,记录成功或失败标签。
  • 自动化评估:利用 LLM 或开源工具(如 RAGASLLM Guard)对回答质量、安全性进行自动打分。

为智能体埋点

OpenTelemetry(OTel)

OpenTelemetry 已成为行业标准。可通过现成的封装库为不同框架注入 OTel Span。

示例:使用 OpenLit 为 AutoGen 添加埋点:

python
import openlit

openlit.init(tracer=langfuse._otel_tracer, disable_batch=True)

手动创建 Span

部分场景需自定义埋点或补充业务标签,可使用官方 SDK 手动创建:

python
from langfuse import get_client

langfuse = get_client()
span = langfuse.start_span(name="my-span")
span.end()

评估(Evaluation)

可观测性提供数据,评估则用于判定智能体表现并指导改进。由于智能体具有不确定性,必须建立持续评估机制。

评估分为 离线在线 两类,二者互补,通常先离线后上线。

离线评估

Langfuse 数据集示例

  • 在可控环境下使用测试数据集评估,例如含标准答案的例题库;
  • 可作为开发阶段或 CI 流程的一部分,防止回归;
  • 注意维护测试集的覆盖度,将线上出现的新案例补充进来。

在线评估

Langfuse 监控面板示例

  • 在真实用户流量中持续监控表现;
  • 捕捉实验室外的意外场景、模型漂移与用户行为差异;
  • 可结合显性/隐性反馈、影子流量、A/B 实验等手段。

离线与在线的循环

常见实践:

  1. 离线评估 → 通过后上线;
  2. 线上监控 → 收集失败案例;
  3. 将新案例加入离线测试 → 改进模型 → 再次部署。

常见问题与排查

问题解决思路
智能体执行不稳定明确目标、拆分任务、优化提示词
智能体陷入循环设定终止条件,复杂任务使用更擅长推理的模型
工具调用效果差单独测试工具输出,校准参数与命名
多智能体协作异常区分各智能体的职责,并考虑使用路由/控制器智能体

借助可观测性产生的 Trace 与指标,可快速定位问题所在步骤,大幅提升调试效率。

成本控制策略

  • 使用小模型(SLM):在意图识别、参数提取等简单任务中,可用小模型降本;
  • 模型路由:根据任务复杂度将请求分配给不同大小的模型;
  • 结果缓存:对高频请求使用缓存或相似度匹配,减少重复调用;
  • 例行监控:及时发现异常调用或指数级增长的成本。

实战 Notebook

请参考本节的 示例 Notebook,了解如何在 AutoGen 智能体中接入可观测性并执行评估。

常见问题交流

欢迎加入 Azure AI Foundry Discord,与其他学习者交流生产化经验。

上一篇

09 元认知与自我管理

下一篇

11 智能体协议