Skip to main content

分析单个实验

运行实验后,您可以使用 LangSmith 的实验视图来分析结果并获取有关实验执行情况的见解。

本指南将引导您查看实验结果,并重点介绍实验视图中的可用功能。

打开试验视图

要打开实验视图,请从 Dataset & Experiments 页面中选择相关的 Dataset,然后选择要查看的实验。

打开试验视图

查看试验结果

此表显示您的实验结果。这包括数据集中每个示例的输入、输出和参考输出。它还在单独的列中显示每个配置的反馈键及其相应的反馈分数。

开箱即用的指标(延迟、状态、成本和令牌计数)也将显示在各个列中。

在 columns 下拉列表中,您可以选择要隐藏的列和要显示的列。

实验视图

热图视图

试验视图默认为热图视图,其中每次运行的反馈分数都以颜色突出显示。 红色表示分数较低,而绿色表示分数较高。 通过热图可视化,您可以轻松识别模式、发现异常值,并一目了然地了解数据集中的分数分布。

热图视图

排序和筛选

要对反馈分数进行排序或筛选,您可以使用列标题中的作。

排序和筛选

表视图

根据对分析最有用的视图,您可以通过在紧凑视图、完整视图、差异视图之间切换来更改表的格式。

  • Compact视图将每个运行显示为一行,以便于一目了然地比较分数。
  • FullView 显示每个运行的完整输出,以便深入了解各个运行的详细信息。
  • Diff视图显示每次运行的引用输出和输出之间的文本差异。

差异视图

查看跟踪

将鼠标悬停在任何输出单元格上,然后单击跟踪图标以查看该运行的跟踪。这将在侧面板中打开一条跟踪。

要查看整个跟踪项目,请单击标题右上角的 “View Project” 按钮。

查看跟踪

查看 Appluator 运行

对于评估器分数,您可以通过将鼠标悬停在评估器分数单元格上并单击箭头图标来查看源运行。这将在侧面板中打开一条跟踪。如果您正在运行 LLM 作为裁判评估员,则可以在此运行中查看用于评估员的提示。 如果您的实验有重复,您可以点击总平均分数来查找指向所有单个运行的链接。

查看 Appluator 运行

按元数据对结果进行分组

您可以向示例添加元数据以对其进行分类和组织。例如,如果您正在评估问答数据集的事实准确性,则元数据可能包括每个问题属于哪个主题领域。元数据可以通过 UISDK 添加。

要按元数据分析结果,请使用实验视图右上角的“Group by”下拉列表,然后选择所需的元数据键。这会显示每个元数据组的平均反馈分数、延迟、总令牌和成本。

信息

您只能对 2025 年 2 月 20 日之后创建的实验按示例元数据进行分组。该日期之前的任何实验仍可按元数据分组,但前提是元数据位于实验跟踪记录本身上。

分组依据

重复

如果您已使用重复项运行实验,则 output results (输出结果) 列中将有箭头,以便您可以在表中查看输出。要查看重复项中的每个运行,请将鼠标悬停在输出单元格上,然后单击展开的视图。

当您运行重复项试验时,LangSmith 会在表中显示每个反馈分数的平均值。单击反馈分数可查看单个运行的反馈分数,或查看重复项的标准差。

重复

与其他实验进行比较

在实验视图的右上角,您可以选择另一个实验进行比较。这将打开一个比较视图,您可以在其中查看两个实验的比较情况。 要了解有关对比视图的更多信息,请参阅如何比较实验结果

比较


这个页面有帮助吗?


您可以在 GitHub 上留下详细的反馈。