如何在特定数据集版本上进行评估
推荐阅读
在深入此内容之前,阅读关于< a href=\"0\">数据集版本控制的指南可能会有所帮助。 此外,阅读关于< a href=\"1\">获取示例的指南也可能会有所帮助。
使用 list_examples
您可以利用evaluate / aevaluate允许传入示例迭代器以在数据集的特定版本上进行评估这一特性。 只需使用list_examples / listExamples通过as_of / asOf从特定的版本标签中获取示例,并将其传递给data参数即可。
- Python
- TypeScript
from langsmith import Client
ls_client = Client()
# Assumes actual outputs have a 'class' key.
# Assumes example outputs have a 'label' key.
def correct(outputs: dict, reference_outputs: dict) -> bool:
return outputs["class"] == reference_outputs["label"]
results = ls_client.evaluate(
lambda inputs: {"class": "Not toxic"},
# Pass in filtered data here:
data=ls_client.list_examples(
dataset_name="Toxic Queries",
as_of="latest", # specify version here
),
evaluators=[correct],
)
import { evaluate } from "langsmith/evaluation";
await evaluate((inputs) => labelText(inputs["input"]), {
data: langsmith.listExamples({
datasetName: datasetName,
asOf: "latest",
}),
evaluators: [correctLabel],
});
相关
- 了解更多关于如何获取数据集视图的信息 here