Skip to main content

如何比较实验结果

通常,当您迭代 LLM 应用程序时(例如更改模型或提示),您将需要比较不同实验的结果。

LangSmith 支持强大的比较视图,让您能够深入了解不同实验之间的关键差异、回归和改进。

打开对比视图

要打开实验比较视图,请单击数据集和实验页面,选择相关的数据集,在实验选项卡上选择两个或多个实验,然后单击比较。

调整表格显示

您可以通过单击页面顶部的 “Full” 或 “Compact” 在不同视图之间切换。

切换 Full Text 将显示每次运行的输入、输出和参考输出的全文。如果参考输出太长而无法在表中显示,您可以单击 expand 查看完整内容。

您还可以在显示设置下拉列表中选择和隐藏单个反馈键或单个量度,以隔离您要查看的信息。

View 回归和改进

在 LangSmith 比较视图中,根据基线实验的指定反馈键回归的运行将以红色突出显示,而改进的运行将以绿色突出显示。在每列的顶部,您可以看到该实验中有多少次运行效果优于基线实验,有多少次运行效果比基线实验差。

回归

筛选回归或改进

单击每列顶部的 regressions (回归) 或 improvements (改进) 按钮,筛选出在该特定实验中回归或改进的运行。

回归过滤器

更新基准实验和指标

为了跟踪回归,您需要:

  1. 选择要比较的基准实验和要测量的量度。默认情况下,选择最新的实验作为基线。
  2. 选择要重点比较的反馈键(评估指标)。默认情况下会分配一个,但您可以根据需要进行调整。
  3. 配置所选反馈键的分数是否越高越好。将存储此首选项。

基线

打开跟踪

如果您正在评估的示例来自摄取的运行,则可以将鼠标悬停在输出单元格上,然后单击跟踪图标以打开该运行的跟踪视图。这将在侧面板中打开一条跟踪。

展开详细视图

在任何单元格中,您都可以单击悬停状态下的展开图标,以打开该特定示例输入的所有实验结果的详细视图,以及反馈键和分数。

查看摘要图表

您还可以通过单击页面顶部的 “Charts” 选项卡来查看摘要图表。

使用试验元数据作为图表标签

您可以根据实验元数据为图表配置 x 轴标签。

选择元数据键以查看更改图表的 x 轴标签。


这个页面有帮助吗?


您可以在 GitHub 上留下详细的反馈。