Skip to main content

如何对特定数据集版本进行评估

推荐阅读

在深入研究此内容之前,阅读有关数据集版本控制的指南可能会有所帮助。 此外,阅读有关获取示例的指南可能会有所帮助。

list_examples

您可以利用以下事实:evaluate / aevaluate允许传入可迭代的示例以对 DataSet 的特定版本进行评估。 简单使用list_examples / listExamples要使用as_of / asOf并将其传递给data论点。

from langsmith import Client

ls_client = Client()

# Assumes actual outputs have a 'class' key.
# Assumes example outputs have a 'label' key.
def correct(outputs: dict, reference_outputs: dict) -> bool:
return outputs["class"] == reference_outputs["label"]

results = ls_client.evaluate(
lambda inputs: {"class": "Not toxic"},
# Pass in filtered data here:
data=ls_client.list_examples(
dataset_name="Toxic Queries",
as_of="latest", # specify version here
),
evaluators=[correct],
)
  • 在此处了解有关如何获取数据集视图的更多信息

这个页面有帮助吗?


您可以在 GitHub 上留下详细的反馈。