Skip to main content

LangSmith 托管的 ClickHouse

推荐阅读

在继续本指南之前,请阅读 LangSmith 架构概述有关连接到外部 Clickhouse 的指南

如前面的指南中所述,LangSmith 使用 Clickhouse 作为跟踪反馈的主要存储引擎。 为了便于管理和扩展,建议将自托管的 LangSmith 实例连接到外部 Clickhouse 实例。LangSmith 托管的 ClickHouse 是一个选项,允许您使用由 LangSmith 团队监控和维护的完全托管的 ClickHouse 实例。

架构概述

将 LangSmith Managed Clickhouse 与自托管 LangSmith 实例一起使用相当简单。整体架构类似于使用完全自托管的 ClickHouse 实例,但有一些关键区别:

  • 您需要在 LangSmith 实例和 LangSmith 托管的 ClickHouse 实例之间设置专用网络连接。这是为了确保您的数据是安全的,并且您可以从自托管的 LangSmith 实例连接到 ClickHouse 实例。
  • 使用此选项,跟踪的敏感信息(输入和输出)将存储在云中的云对象存储(S3 或 GCS)中,而不是 Clickhouse 中,以确保敏感信息不会离开您的 VPC。
详细了解敏感信息

Clickhouse 存储运行反馈数据。

参考文档介绍了我们用于存储反馈的格式,这是 LangSmith 表示运行时评估分数和注释的方式。 此参考文档介绍了我们用于存储运行(跨度)的格式,这些运行是跟踪的构建块。

我们对与应用程序数据相关的敏感信息的定义是inputs,outputs,errors,manifests,extrasevents运行,因为这些字段可以包含来自 LLM 的提示和完成。

通过 LangSmith 管理的 ClickHouse,我们可以存储inputs,outputs,errors,manifests,extrasevents在云中的云对象存储(S3 或 GCS)中,并将其余的运行数据存储在 ClickHouse 中。这可确保敏感信息不会离开您的 VPC。

请注意,所有反馈数据都存储在 ClickHouse 中。请不要在反馈(分数和注释/评论)或上述任何其他运行字段中发送敏感信息。

  • LangSmith 团队将监控您的 ClickHouse 实例并确保其顺利运行。这使我们能够跟踪运行摄取延迟和查询性能等指标。

整体架构如下所示:

LangSmith 托管的 ClickHouse 架构

要求

  • 必须使用受支持的 blob 存储选项。有关详细信息,请阅读 blob 存储指南
  • 要使用私有终端节点,请确保您的 VPC 位于 ClickHouse Cloud 支持的区域。否则,您将需要使用我们将使用防火墙规则保护的公共终端节点。您的 VPC 需要有一个 NAT 网关,以允许我们将您的流量列入白名单。
  • 您必须有一个可以连接到 LangSmith 托管的 Clickhouse 服务的 VPC。您需要与我们的团队合作,建立必要的网络。
  • 您必须正在运行 LangSmith 自托管实例。您可以将我们的托管 ClickHouse 服务与 KubernetesDocker 安装一起使用。

这个页面有帮助吗?


您可以在 GitHub 上留下详细的反馈。