Skip to main content

LangSmith 中的警报

自托管版本要求

访问警报需要 Helm 图表版本 0.10.3 或更高版本。

概述

LLM 应用程序中的有效可观测性需要主动检测故障、性能下降和回归。LangSmith 的警报功能有助于识别关键问题,例如:

  • 来自模型提供商的 API 速率限制冲突
  • 应用程序的延迟增加
  • 影响反映最终用户体验的反馈分数的应用程序更改

LangSmith 中的警报是项目范围的,需要为每个受监控的项目单独配置。

配置警报

第 1 步:导航到创建警报

首先导航到要为其配置警报的 Tracing 项目。点击页面右上角的 + New Alert 以设置提醒。

第 2 步:选择量度类型


警报指标

LangSmith 针对三个核心指标提供基于阈值的警报:

指标类型描述用例
Errored RunsTrack runs with an error statusMonitors for failures in an application.
Feedback ScoreMeasures the average feedback scoreTrack feedback from end users or online evaluation results to alert on regressions.
LatencyMeasures average run execution timeTracks the latency of your application to alert on spikes and performance bottlenecks.

此外,对于 Errored Runs (出错的运行) 和 Run Latency (运行延迟),您可以定义筛选条件以缩小触发警报的运行范围。例如,您可以为所有llm标记有support_agent遇到RateLimitExceeded错误。

警报指标

步骤 2:定义警报条件

警报条件由几个部分组成:

  • 聚合方法:平均值、百分比或计数
  • 比较运算符:、 或 exceeds threshold>=<=
  • 阈值:触发警报的数值
  • Aggregation Window (聚合窗口):指标计算的时间段(当前在 5 分钟或 15 分钟之间选择
  • Feedback Key (Feedback Score alerts) (仅限反馈分数警报):要监控的特定反馈指标

告警条件配置

例:当过去 5 分钟内超过 5% 的运行导致错误时,上面显示的配置将生成警报。

您可以预览历史时间窗口内的警报行为,以了解有多少数据点(以及哪些数据点)会在所选阈值(以红色表示)触发警报。例如,将项目的平均延迟阈值设置为 60 秒可以让您可视化潜在的警报,如下图所示。

警报指标

步骤 3:配置通知通道

LangSmith 支持以下通知渠道:

  1. PagerDuty 集成
  2. Webhook 通知

选择适当的渠道以确保通知到达负责的团队成员。

最佳实践

  • 根据应用程序关键性调整敏感度
  • 从更广泛的阈值开始,然后根据观察到的模式进行优化
  • 确保警报路由到达适当的待命人员

这个页面有帮助吗?


您可以在 GitHub 上留下详细的反馈。