LangSmith 中的警报
自托管版本要求
访问警报需要 Helm chart 版本 0.10.3 或更高版本。
概览
LLM 应用中的有效可观测性需要主动检测故障、性能下降和回归问题。LangSmith 的警报功能有助于识别关键问题,例如:
- 来自模型提供者的 API 速率限制违规
- 您的应用程序延迟增加
- 影响反映最终用户体验的反馈评分的应用程序更改
LangSmith 中的警报是按项目范围的,需要为每个监控的项目进行单独配置。
配置警报
步骤 1:导航至创建警报
首先导航到您希望配置警报的追踪项目。点击页面右上角的+ New Alert以设置警报。
步骤 2:选择指标类型

LangSmith 提供基于阈值的告警功能,涵盖三个核心指标:
| 指标类型 | 描述 | 应用场景 |
|---|---|---|
| Errored Runs | Track runs with an error status | Monitors for failures in an application. |
| Feedback Score | Measures the average feedback score | Track feedback from end users or online evaluation results to alert on regressions. |
| Latency | Measures average run execution time | Tracks the latency of your application to alert on spikes and performance bottlenecks. |
此外,对于运行错误和运行延迟,您可以定义过滤器以缩小触发警报的运行范围。例如,您可能为所有标记为support_agent且遇到RateLimitExceeded错误的llm运行创建错误警报过滤器。

步骤 2:定义警报条件
告警条件由多个组件组成:
- 聚合方法: 平均值、百分比或计数
- 比较运算符:
>=,<=,或超过阈值 - 阈值: 触发警报的数值
- 聚合窗口: 指标计算的时间周期(当前可选择5分钟或15分钟)
- 反馈键(仅用于反馈分数警报):要监控的具体反馈指标

示例:上述配置将在过去5分钟内超过5%的运行出现错误时生成警报。
您可以预览历史时间窗口内的警报行为,以了解在选定的阈值(以红色标示)下,有多少个数据点——以及是哪些数据点——会触发警报。例如,为项目设置60秒的平均延迟阈值,您就可以可视化潜在的警报,如下图所示。

步骤 3:配置通知渠道
LangSmith 支持以下通知渠道:
选择适当的频道,以确保通知能送达负责团队成员。
最佳实践
- 根据应用关键性调整敏感度
- 从更广泛的阈值开始,并根据观察到的模式进行优化
- 确保警报路由能到达相应的值班人员