Skip to main content
Open on GitHub

Docling

Docling 解析 PDF、DOCX、PPTX、HTML 及其他格式,将其转换为包含文档布局、表格等内容的丰富统一表示形式,使其适用于 RAG 等生成式 AI 工作流。

此集成通过 DoclingLoader 文档加载器提供 Docling 的功能。

安装与设置

只需从您的包管理器安装 langchain-docling,例如 pip:

pip install langchain-docling

文档加载器

The DoclingLoader class in langchain-docling seamlessly integrates Docling into LangChain, enabling you to:

  • 轻松且快速地使用各种文档类型构建您的 LLM 应用程序,并
  • 利用 Docling 的丰富表示来实现高级的、基于文档的原生定位。

基本用法如下:

from langchain_docling import DoclingLoader

FILE_PATH = ["https://arxiv.org/pdf/2408.09869"] # Docling Technical Report

loader = DoclingLoader(file_path=FILE_PATH)

docs = loader.load()

如需端到端使用,请查看 此示例

附加资源