LangSmith 中的警报
自托管版本要求
访问警报需要 Helm 图表版本 0.10.3 或更高版本。
概述
LLM 应用程序中的有效可观测性需要主动检测故障、性能下降和回归。LangSmith 的警报功能有助于识别关键问题,例如:
- 来自模型提供商的 API 速率限制冲突
- 应用程序的延迟增加
- 影响反映最终用户体验的反馈分数的应用程序更改
LangSmith 中的警报是项目范围的,需要为每个受监控的项目单独配置。
配置警报
第 1 步:导航到创建警报
首先导航到要为其配置警报的 Tracing 项目。点击页面右上角的 + New Alert 以设置提醒。
第 2 步:选择量度类型

LangSmith 针对三个核心指标提供基于阈值的警报:
| 指标类型 | 描述 | 用例 |
|---|---|---|
| Errored Runs | Track runs with an error status | Monitors for failures in an application. |
| Feedback Score | Measures the average feedback score | Track feedback from end users or online evaluation results to alert on regressions. |
| Latency | Measures average run execution time | Tracks the latency of your application to alert on spikes and performance bottlenecks. |
此外,对于 Errored Runs (出错的运行) 和 Run Latency (运行延迟),您可以定义筛选条件以缩小触发警报的运行范围。例如,您可以为所有llm标记有support_agent遇到RateLimitExceeded错误。

步骤 2:定义警报条件
警报条件由几个部分组成:
- 聚合方法:平均值、百分比或计数
- 比较运算符:、 或 exceeds threshold
>=<= - 阈值:触发警报的数值
- Aggregation Window (聚合窗口):指标计算的时间段(当前在 5 分钟或 15 分钟之间选择
- Feedback Key (Feedback Score alerts) (仅限反馈分数警报):要监控的特定反馈指标

例:当过去 5 分钟内超过 5% 的运行导致错误时,上面显示的配置将生成警报。
您可以预览历史时间窗口内的警报行为,以了解有多少数据点(以及哪些数据点)会在所选阈值(以红色表示)触发警报。例如,将项目的平均延迟阈值设置为 60 秒可以让您可视化潜在的警报,如下图所示。

步骤 3:配置通知通道
LangSmith 支持以下通知渠道:
选择适当的渠道以确保通知到达负责的团队成员。
最佳实践
- 根据应用程序关键性调整敏感度
- 从更广泛的阈值开始,然后根据观察到的模式进行优化
- 确保警报路由到达适当的待命人员