如何通过重复进行评估

运行多次重复可以更准确地估计系统的性能，因为 LLM 输出不是确定性的。输出可能因重复而异。重复是减少易发生高可变性的系统中的噪声，例如代理。

在实验中配置重复项

添加可选的num_repetitionsparam 添加到evaluate / aevaluate函数（Python， TypeScript）指定多少次对数据集中的每个示例进行评估。例如，如果数据集中有 5 个示例，并且将num_repetitions=5，每个示例将运行 5 次，总共运行 25 次。

蟒
TypeScript （类型脚本）

from langsmith import evaluate

results = evaluate(
    lambda inputs: label_text(inputs["text"]),
    data=dataset_name,
    evaluators=[correct_label],
    experiment_prefix="Toxic Queries",
    num_repetitions=3,
)

import { evaluate } from "langsmith/evaluation";

await evaluate((inputs) => labelText(inputs["input"]), {
  data: datasetName,
  evaluators: [correctLabel],
  experimentPrefix: "Toxic Queries",
  numRepetitions=3,
});

查看使用 repeitions 运行的实验的结果

如果您已使用重复项运行实验，则 output results （输出结果）列中将有箭头，以便您可以在表中查看输出。要查看重复项中的每个运行，请将鼠标悬停在输出单元格上，然后单击展开的视图。当您运行重复项试验时，LangSmith 会在表中显示每个反馈分数的平均值。单击反馈分数可查看单个运行的反馈分数，或查看重复项的标准差。

如何通过重复进行评估

在实验中配置重复项

查看使用 repeitions 运行的实验的结果

这个页面有帮助吗？

您可以在 GitHub 上留下详细的反馈。