如何通过重复进行评估
运行多次 重复实验 可以更准确地估计系统的性能,因为大语言模型(LLM)的输出是非确定性的。输出在每次重复之间可能会有所不同。重复实验是降低易变系统(如智能体)中噪声的一种方法。
在实验中配置重复次数
将可选的 num_repetitions 参数添加到 evaluate / aevaluate 函数中(Python, TypeScript),以指定在数据集中的每个示例上评估的次数。例如,如果您的数据集包含 5 个示例并设置 num_repetitions=5,则每个示例将运行 5 次,总计 25 次运行。
- Python
- TypeScript
from langsmith import evaluate
results = evaluate(
lambda inputs: label_text(inputs["text"]),
data=dataset_name,
evaluators=[correct_label],
experiment_prefix="Toxic Queries",
num_repetitions=3,
)
import { evaluate } from "langsmith/evaluation";
await evaluate((inputs) => labelText(inputs["input"]), {
data: datasetName,
evaluators: [correctLabel],
experimentPrefix: "Toxic Queries",
numRepetitions=3,
});
查看使用重复运行进行的实验结果
如果您使用重复次数运行了实验,输出结果列中将显示箭头,以便您在表格中查看输出。要查看重复中的每次运行,请将鼠标悬停在输出单元格上并点击展开视图。 当您运行带有重复次数的实验时,LangSmith 会在表格中显示每个反馈分数的平均值。点击反馈分数可查看单次运行的反馈分数,或查看重复次数之间的标准差。
