Skip to main content

如何版本化数据集

在 LangSmith 中,数据集是版本化的。这意味着每次您向数据集中添加、更新或删除示例时,都会创建一个新的数据集版本。

创建数据集的新版本

每当您在数据集中添加更新删除示例时,都会创建该数据集的新版本。这使您能够跟踪数据集随时间的变化,并了解数据集的演变过程。

默认情况下,版本由变更的时间戳定义。当您在“示例”标签页中点击数据集的特定版本(按时间戳)时,您可以查看该时间点的数据集状态。

Version Datasets

请注意,在查看数据集的过去版本时,示例是只读的。您还将看到此数据集版本与数据集“最新”版本之间的操作。此外,默认情况下,“示例”选项卡中显示的是数据集的最新版本,而所有版本的实验都显示在“测试”选项卡中

在“测试”标签页中,您可以查看在不同版本上运行于数据集的测试结果。

Version Datasets

标记版本

您还可以为数据集版本添加标签,以便使用更易读的命名。这对于标记数据集中的重要里程碑非常有用。

例如,您可以将数据集的某个版本标记为“prod”,并使用它来对您的LLM流水线运行测试。

标记可以通过在“示例”选项卡中点击“+ 标记此版本”在 UI 中完成。

Tagging Datasets

您也可以使用 SDK 为数据集版本添加标签。以下是使用 Python SDK 为数据集版本添加标签的示例:

from langsmith import Client
from datetime import datetime

client = Client()

initial_time = datetime(2024, 1, 1, 0, 0, 0) # The timestamp of the version you want to tag

# You can tag a specific dataset version with a semantic name, like "prod"
client.update_dataset_tag(
dataset_name=toxic_dataset_name, as_of=initial_time, tag="prod"
)

要针对数据集中特定标记版本运行评估,您可以遵循 此指南


此页面有帮助吗?


您可以留下详细的反馈 在 GitHub 上