Docling
Docling 解析 PDF、DOCX、PPTX、HTML 及其他格式,将其转换为包含文档布局、表格等内容的丰富统一表示形式,使其适用于 RAG 等生成式 AI 工作流。
此集成通过
DoclingLoader文档加载器提供 Docling 的功能。
安装与设置¶
只需从您的包管理器安装 langchain-docling,例如 pip:
pip install langchain-docling
文档加载器¶
The DoclingLoader class in langchain-docling seamlessly integrates Docling into
LangChain, enabling you to:
- 轻松且快速地使用各种文档类型构建您的 LLM 应用程序,并
- 利用 Docling 的丰富表示来实现高级的、基于文档的原生定位。
基本用法如下:
from langchain_docling import DoclingLoader
FILE_PATH = ["https://arxiv.org/pdf/2408.09869"] # Docling Technical Report
loader = DoclingLoader(file_path=FILE_PATH)
docs = loader.load()
如需端到端使用,请查看 此示例。