Skip to main content

LangSmith 管理的 ClickHouse

推荐阅读

请在继续本指南之前,阅读LangSmith 架构概述连接外部 Clickhouse 的指南

如前所述,LangSmith 使用 Clickhouse 作为追踪反馈的主要存储引擎。 为了便于管理和扩展,建议将自托管的 LangSmith 实例连接到外部 Clickhouse 实例。LangSmith 托管的 ClickHouse 是一个选项,允许您使用由 LangSmith 团队监控和维护的完全托管的 ClickHouse 实例。

架构概览

使用 LangSmith Managed Clickhouse 与您的自托管 LangSmith 实例非常简单。整体架构与使用完全自托管的 ClickHouse 实例类似,但有一些关键区别:

  • \ 您需要为您的 LangSmith 实例与 LangSmith 托管的 ClickHouse 实例之间设置专用网络连接。这是为了确保您的数据安全,并允许您从自托管的 LangSmith 实例连接到 ClickHouse 实例。
  • 使用此选项时,您的追踪的敏感信息(输入和输出)将存储在云对象存储(S3 或 GCS)中,位于您的云内,而不是 Clickhouse,以确保敏感信息不会离开您的 VPC。
更多关于敏感信息

Clickhouse 存储 运行反馈 数据。

参考文档解释了我们要用于存储反馈的格式,这是 LangSmith 表示运行(runs)上的评估分数和注释的方式。 此参考文档解释了我们要用于存储运行(spans)的格式,这些是追踪(traces)的构建块。

我们关于与应用程序数据相关的敏感信息的定义包括 inputsoutputserrorsmanifestsextrasevents 这些字段,因为它们可能包含来自大语言模型(LLM)的提示词和完成内容。

通过 LangSmith 管理的 ClickHouse,我们将 inputsoutputserrorsmanifestsextrasevents 存储在云对象存储(S3 或 GCS)中,该存储位于您的云环境中,而其余的运行时数据则存储在 ClickHouse 中。这确保了敏感信息不会离开您的 VPC。

请注意,所有反馈数据均存储在 ClickHouse 中。请勿在反馈(评分和注释/评论)或上述任何其他运行字段中发送敏感信息。

  • LangSmith 团队将监控您的 ClickHouse 实例,确保其平稳运行。这使我们能够跟踪诸如运行摄入延迟和查询性能等指标。

整体架构如下所示:

LangSmith Managed ClickHouse Architecture

需求

  • 您必须使用支持的 blob 存储选项。 阅读 blob 存储指南 以获取更多信息。
  • 要使用私有端点,请确保您的 VPC 位于 ClickHouse Cloud 支持的 区域。否则,您将需要使用公共端点,我们将通过防火墙规则对其进行保护。您的 VPC 需要配置 NAT 网关,以便我们能够白名单化您的流量。
  • 您需要拥有一个能够连接到 LangSmith 托管的 ClickHouse 服务的 VPC。您将需要与我们的团队合作来设置必要的网络配置。
  • 您必须运行一个自托管的 LangSmith 实例。您可以使用我们托管的 ClickHouse 服务,同时支持 KubernetesDocker 安装。

此页面有帮助吗?


您可以留下详细的反馈 在 GitHub 上