Skip to main content

如何比较实验结果

通常,当您迭代您的 LLM 应用程序(例如更改模型或提示)时,您将希望比较不同实验的结果。

LangSmith 支持一个强大的对比视图,可帮助您专注于不同实验之间的关键差异、回归问题和改进之处。

打开比较视图

要打开实验比较视图,请单击数据集与实验页面,选择相关的数据集,在“实验”选项卡中选择两个或更多实验,然后单击比较。

调整表格显示

您可以通过点击页面顶部的“完整”或“紧凑”按钮在不同视图之间切换。

切换全文将显示每次运行的输入、输出和参考输出的完整文本。如果参考输出太长无法在表格中显示,您可以点击展开以查看完整内容。

您还可以在显示设置下拉菜单中选择并隐藏单个反馈键或单个指标,以隔离您想要查看的信息。

查看回归和改进

在 LangSmith 的比较视图中,与您指定的反馈键相比出现退化的运行将以红色高亮显示,而表现改进的运行将以绿色高亮显示。在每个列的顶部,您可以看到该实验中有多少运行比您的基线实验表现更好,以及有多少运行表现更差。

Regressions

筛选回归或改进

点击每列顶部的“回归”或“改进”按钮,以筛选出在该特定实验中发生回归或改进的运行。

Regressions Filter

更新基线实验和指标

为了跟踪回归问题,您需要:

  1. 选择一个基线实验用于比较,并选择要衡量的指标。默认情况下,最新的实验将被选为基线。
  2. 选择您想要重点比较的反馈键(评估指标)。默认会分配一个,但您可以根据需要调整。
  3. 配置所选反馈键是否高分更好。此偏好将被存储。

Baseline

打开追踪

如果您正在评估的示例来自已摄入的 运行,您可以将鼠标悬停在输出单元格上并点击跟踪图标,以打开该运行的跟踪视图。这将在侧边栏中打开一个跟踪。

展开详细视图

从任意单元格中,您可以点击悬停状态下的展开图标,以打开该特定示例输入的所有实验结果的详细视图,包括反馈键和评分。

查看摘要图表

您也可以通过点击页面顶部的“图表”标签来查看汇总图表。

使用实验元数据作为图表标签

您可以基于实验元数据配置图表的 x 轴标签。

选择一个元数据键以更改图表的 x 轴标签。


此页面有帮助吗?


您可以留下详细的反馈 在 GitHub 上