Skip to main content
在 GitHub 上打开

Docling

Docling 将 PDF、DOCX、PPTX、HTML 和其他格式解析为丰富的统一表示形式,包括文档布局、表格等,使其为 RAG 等生成式 AI 工作流做好准备。

此集成通过DoclingLoader文档加载器。

安装和设置

安装简单langchain-docling从你的 Package Manager,例如 pip:

pip install langchain-docling

文档加载器

DoclingLoaderlangchain-docling将 Docling 无缝集成到 LangChain 的 LangChain 支持您:

  • 在 LLM 应用程序中轻松快速地使用各种文档类型,以及
  • 利用 Docling 的丰富表示形式实现高级的原生文档基础。

基本用法如下所示:

from langchain_docling import DoclingLoader

FILE_PATH = ["https://arxiv.org/pdf/2408.09869"] # Docling Technical Report

loader = DoclingLoader(file_path=FILE_PATH)

docs = loader.load()

有关端到端用法,请查看此示例

其他资源