分析单个实验
运行实验后,您可以使用 LangSmith 的实验视图来分析结果,并深入了解实验的表现情况。
本指南将引导您查看实验结果,并突出显示实验视图中可用的功能。
打开实验视图
要打开实验视图,请先从“数据集与实验”页面选择相关的数据集,然后选择您想要查看的实验。

查看实验结果
此表格显示您的实验结果。其中包括数据集中每个示例的输入、输出和参考输出。它还以单独的列显示每个配置的反馈键及其对应的反馈分数。
开箱即用的指标(延迟、状态、成本和令牌计数)也将显示在单独的列中。
在列下拉菜单中,您可以选择隐藏或显示哪些列。

热力图视图
实验视图默认以热力图形式呈现,其中每次运行的反馈分数会以不同颜色高亮显示。 红色表示较低的分数,而绿色表示较高的分数。 热力图可视化使您能够一目了然地识别模式、发现异常值并理解数据集中的分数分布。

排序和筛选
要排序或过滤反馈分数,您可以使用列标题中的操作。

表格视图
根据您的分析需求,您可以通过在紧凑视图、完整视图和差异视图之间切换,来更改表格的格式。
- The
Compact视图将每次运行显示为一行,便于一目了然地比较分数。 - The
Full视图显示了每次运行的完整输出,以便深入查看单个运行的详细信息。 Diff视图显示了参考输出与每次运行输出之间的文本差异。

查看跟踪
将鼠标悬停在任意输出单元格上,并点击跟踪图标以查看该运行的跟踪信息。这将在侧边栏中打开一个跟踪视图。
要查看完整的追踪项目,请点击标题右上角的“查看项目”按钮。

查看评估器运行
对于评估器分数,您可以将鼠标悬停在评估器分数单元格上并点击箭头图标来查看其源运行。这将在侧边面板中打开一个追踪。如果您正在运行 LLM-as-a-judge 评估器,则可以在该运行中查看用于评估器的提示。 如果您的实验具有 重复,您可以点击聚合平均分数以找到指向所有单独运行的链接。

按元数据分组结果
您可以为示例添加元数据以对其进行分类和组织。例如,如果您正在评估问答数据集的事实准确性,元数据可能包括每个问题所属的主题领域。可以通过 UI 或 SDK 添加元数据。
要按元数据对结果进行分析,请使用实验视图右上角的“按...分组”下拉菜单,并选择您需要的元数据键。这将显示每个元数据组的平均反馈分数、延迟、总令牌数和成本。
您只能对2025年2月20日之后创建的训练实验按示例元数据进行分组。该日期之前的任何训练实验仍可按元数据进行分组,但前提是元数据必须位于实验轨迹本身上。

重复
如果您使用重复次数运行了实验,输出结果列中将显示箭头,以便您在表格中查看输出。要查看重复中的每次运行,请将鼠标悬停在输出单元格上并点击展开视图。
当您运行带有重复的实验时,LangSmith 会在表格中显示每个反馈分数的平均值。点击反馈分数可查看单个运行的反馈分数,或查看重复实验的标准差。

Compare to another experiment
在实验视图的右上角,您可以选择另一个实验进行比较。这将打开一个比较视图,让您查看两个实验的对比情况。 要了解有关比较视图的更多信息,请参阅如何比较实验结果。
