Skip to main content
Open In Colab在 GitHub 上打开

Azure Blob 存储容器

Azure Blob 存储是 Microsoft 的云对象存储解决方案。Blob 存储针对存储大量非结构化数据进行了优化。非结构化数据是指不遵守特定数据模型或定义的数据,例如文本或二进制数据。

Azure Blob Storage设计用于:

  • 将图像或文档直接提供给浏览器。
  • 存储文件以进行分布式访问。
  • 流式传输视频和音频。
  • 写入日志文件。
  • 存储数据以进行备份和还原、灾难恢复和存档。
  • 存储数据以供本地或 Azure 托管服务进行分析。

此笔记本介绍如何从 容器加载文档对象Azure Blob Storage.

%pip install --upgrade --quiet  azure-storage-blob
from langchain_community.document_loaders import AzureBlobStorageContainerLoader
loader = AzureBlobStorageContainerLoader(conn_str="<conn_str>", container="<container>")
loader.load()
[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpaa9xl6ch/fake.docx'}, lookup_index=0)]

指定前缀

您还可以指定前缀,以便对要加载的文件进行更精细的控制。

loader = AzureBlobStorageContainerLoader(
conn_str="<conn_str>", container="<container>", prefix="<prefix>"
)
loader.load()
[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpujbkzf_l/fake.docx'}, lookup_index=0)]