Skip to main content
Open In ColabOpen on GitHub

Google Cloud 文档 AI

Document AI 是 Google Cloud 提供的一个文档理解平台,可将文档中的非结构化数据转换为结构化数据,从而更轻松地进行理解、分析和使用。

了解更多:

该模块包含一个基于 Google Cloud DocAI 的 PDF 解析器。

您需要安装两个库才能使用此解析器:

%pip install --upgrade --quiet  langchain-google-community[docai]

首先,您需要设置一个 Google Cloud Storage (GCS) 存储桶,并按照此处说明创建您自己的光学字符识别 (OCR) 处理器:https://cloud.google.com/document-ai/docs/create-processor

GCS_OUTPUT_PATH 应该是 GCS 上某个文件夹的路径(以 gs:// 开头),而 PROCESSOR_NAME 应类似于 projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR_IDprojects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR_ID/processorVersions/PROCESSOR_VERSION_ID。你可以通过编程方式获取,也可以从 Google Cloud Console 中 Processor details 标签页的 Prediction endpoint 部分复制。

GCS_OUTPUT_PATH = "gs://BUCKET_NAME/FOLDER_PATH"
PROCESSOR_NAME = "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR_ID"
from langchain_core.document_loaders.blob_loaders import Blob
from langchain_google_community import DocAIParser
API 参考:Blob |DocAIParser

现在,创建一个 DocAIParser

parser = DocAIParser(
location="us", processor_name=PROCESSOR_NAME, gcs_output_path=GCS_OUTPUT_PATH
)

在此示例中,您可以使用上传到公共 GCS 存储桶的 Alphabet 财报。

2022Q1_alphabet_earnings_release.pdf

将文档传递给 lazy_parse() 方法以

blob = Blob(
path="gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2022Q1_alphabet_earnings_release.pdf"
)

我们将每页获取一个文档,总共11个:

docs = list(parser.lazy_parse(blob))
print(len(docs))
11

您可以逐个对 blob 进行端到端的解析。如果您有许多文档,更好的方法可能是将它们批量处理,甚至将解析过程与解析结果的处理分离开来。

operations = parser.docai_parse([blob])
print([op.operation.name for op in operations])
['projects/543079149601/locations/us/operations/16447136779727347991']

您可以检查操作是否已完成:

parser.is_running(operations)
True

当它们完成时,你可以解析结果:

parser.is_running(operations)
False
results = parser.get_results(operations)
print(results[0])
DocAIParsingResults(source_path='gs://vertex-pgt/examples/goog-exhibit-99-1-q1-2023-19.pdf', parsed_path='gs://vertex-pgt/test/run1/16447136779727347991/0')

现在我们可以终于从解析结果中生成文档了:

docs = list(parser.parse_from_results(results))
print(len(docs))
11