Skip to main content

如何对数据集进行版本控制

在 LangSmith 中,数据集是版本化的。这意味着,每次在数据集中添加、更新或删除示例时,都会创建数据集的新版本。

创建数据集的新版本

每当在数据集中添加更新或删除示例时,都会创建数据集的新版本。这样,您就可以跟踪数据集随时间的变化,并了解数据集的演变情况。

默认情况下,版本由更改的时间戳定义。当您在 “Examples” 选项卡中单击数据集的特定版本(按时间戳)时,您可以看到数据集在该时间点的状态。

版本数据集

请注意,在查看数据集的过去版本时,示例是只读的。您还将看到此版本的数据集与数据集的“最新”版本之间的作。此外,默认情况下,数据集的最新版本显示在“示例”选项卡中所有版本的实验都显示在“测试”选项卡中

在“Tests(测试)”选项卡中,您可以查看在不同版本的数据集上运行的测试的结果。

版本数据集

标记版本

您还可以标记数据集的版本,为它们提供更易读的名称。这对于标记数据集历史记录中的重要里程碑非常有用。

例如,您可以将数据集的某个版本标记为 “prod”,并使用它针对 LLM 管道运行测试。

在 UI 中,可以通过单击“Examples”选项卡中的“+ Tag this version”来完成标记。

标记数据集

您还可以使用 SDK 标记数据集的版本。以下是如何使用 python SDK 标记数据集版本的示例:

from langsmith import Client
from datetime import datetime

client = Client()

initial_time = datetime(2024, 1, 1, 0, 0, 0) # The timestamp of the version you want to tag

# You can tag a specific dataset version with a semantic name, like "prod"
client.update_dataset_tag(
dataset_name=toxic_dataset_name, as_of=initial_time, tag="prod"
)

要对数据集的特定标记版本运行评估,您可以遵循本指南


这个页面有帮助吗?


您可以在 GitHub 上留下详细的反馈。