Azure AI 数据
Azure AI Studio 提供了将数据资产上传到云存储以及从以下来源注册现有数据资产的能力:
Microsoft OneLakeAzure Blob StorageAzure Data Lake gen 2
这是这种方法相对于AzureBlobStorageContainerLoader和AzureBlobStorageFileLoader的优势,因为它可以无缝处理到云存储的认证。你可以使用基于身份的身份验证访问控制来访问数据或基于凭据的身份验证访问控制(例如SAS令牌、账户密钥)。在基于凭据的数据访问情况下,你无需在代码中指定机密信息或设置密钥保管库 - 系统会为你处理这些。
这个笔记本介绍了如何在AI Studio中从数据资产加载文档对象。
%pip install --upgrade --quiet azureml-fsspec, azure-ai-generative
from azure.ai.resources.client import AIClient
from azure.identity import DefaultAzureCredential
from langchain_community.document_loaders import AzureAIDataLoader
API 参考:AzureAIDataLoader
# Create a connection to your project
client = AIClient(
credential=DefaultAzureCredential(),
subscription_id="<subscription_id>",
resource_group_name="<resource_group_name>",
project_name="<project_name>",
)
# get the latest version of your data asset
data_asset = client.data.get(name="<data_asset_name>", label="latest")
# load the data asset
loader = AzureAIDataLoader(url=data_asset.path)
loader.load()
[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpaa9xl6ch/fake.docx'}, lookup_index=0)]
指定通配符模式
您还可以指定通配符以实现更精细的文件加载控制。在下面的例子中,只有带有pdf扩展名的文件会被加载。
loader = AzureAIDataLoader(url=data_asset.path, glob="*.pdf")
loader.load()
[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpujbkzf_l/fake.docx'}, lookup_index=0)]