Skip to main content

LangSmith 中的警报

自托管版本要求

访问警报需要 Helm chart 版本 0.10.3 或更高版本。

概览

LLM 应用中的有效可观测性需要主动检测故障、性能下降和回归问题。LangSmith 的警报功能有助于识别关键问题,例如:

  • 来自模型提供者的 API 速率限制违规
  • 您的应用程序延迟增加
  • 影响反映最终用户体验的反馈评分的应用程序更改

LangSmith 中的警报是按项目范围的,需要为每个监控的项目进行单独配置。

配置警报

步骤 1:导航至创建警报

首先导航到您希望配置警报的追踪项目。点击页面右上角的+ New Alert以设置警报。

步骤 2:选择指标类型


Alert Metrics

LangSmith 提供基于阈值的告警功能,涵盖三个核心指标:

指标类型描述应用场景
Errored RunsTrack runs with an error statusMonitors for failures in an application.
Feedback ScoreMeasures the average feedback scoreTrack feedback from end users or online evaluation results to alert on regressions.
LatencyMeasures average run execution timeTracks the latency of your application to alert on spikes and performance bottlenecks.

此外,对于运行错误运行延迟,您可以定义过滤器以缩小触发警报的运行范围。例如,您可能为所有标记为support_agent且遇到RateLimitExceeded错误的llm运行创建错误警报过滤器。

Alert Metrics

步骤 2:定义警报条件

告警条件由多个组件组成:

  • 聚合方法: 平均值、百分比或计数
  • 比较运算符: >=, <=,或超过阈值
  • 阈值: 触发警报的数值
  • 聚合窗口: 指标计算的时间周期(当前可选择5分钟或15分钟)
  • 反馈键(仅用于反馈分数警报):要监控的具体反馈指标

Alert Condition Configuration

示例:上述配置将在过去5分钟内超过5%的运行出现错误时生成警报。

您可以预览历史时间窗口内的警报行为,以了解在选定的阈值(以红色标示)下,有多少个数据点——以及是哪些数据点——会触发警报。例如,为项目设置60秒的平均延迟阈值,您就可以可视化潜在的警报,如下图所示。

Alert Metrics

步骤 3:配置通知渠道

LangSmith 支持以下通知渠道:

  1. PagerDuty 集成
  2. Webhook 通知

选择适当的频道,以确保通知能送达负责团队成员。

最佳实践

  • 根据应用关键性调整敏感度
  • 从更广泛的阈值开始,并根据观察到的模式进行优化
  • 确保警报路由能到达相应的值班人员

此页面有帮助吗?


您可以留下详细的反馈 在 GitHub 上