Skip to main content
Open In ColabOpen on GitHub

lakeFS

lakeFS 提供了对数据湖进行可扩展版本控制的功能,并使用类似于 Git 的语义来创建和访问这些版本。

这个笔记本涵盖了如何从lakeFS路径加载文档对象(无论是对象还是前缀)。

初始化lakeFS加载器

替换ENDPOINTLAKEFS_ACCESS_KEYLAKEFS_SECRET_KEY值为您自己的。

from langchain_community.document_loaders import LakeFSLoader
API 参考:LakeFS 加载器
ENDPOINT = ""
LAKEFS_ACCESS_KEY = ""
LAKEFS_SECRET_KEY = ""

lakefs_loader = LakeFSLoader(
lakefs_access_key=LAKEFS_ACCESS_KEY,
lakefs_secret_key=LAKEFS_SECRET_KEY,
lakefs_endpoint=ENDPOINT,
)

指定路径

您可以指定前缀或完整的对象路径以控制要加载哪些文件。

指定要在对应的REPOREFPATH中填写的仓库、引用(分支、提交ID或标签),以及路径,以加载文档:

REPO = ""
REF = ""
PATH = ""

lakefs_loader.set_repo(REPO)
lakefs_loader.set_ref(REF)
lakefs_loader.set_path(PATH)

docs = lakefs_loader.load()
docs