Docling
Docling 将 PDF、DOCX、PPTX、HTML 和其他格式解析为丰富的统一表示形式,包括文档布局、表格等,使其为 RAG 等生成式 AI 工作流做好准备。
此集成通过
DoclingLoader文档加载器。
安装和设置
安装简单langchain-docling从你的 Package Manager,例如 pip:
pip install langchain-docling
文档加载器
这DoclingLoader类langchain-docling将 Docling 无缝集成到
LangChain 的 LangChain 支持您:
- 在 LLM 应用程序中轻松快速地使用各种文档类型,以及
- 利用 Docling 的丰富表示形式实现高级的原生文档基础。
基本用法如下所示:
from langchain_docling import DoclingLoader
FILE_PATH = ["https://arxiv.org/pdf/2408.09869"] # Docling Technical Report
loader = DoclingLoader(file_path=FILE_PATH)
docs = loader.load()
有关端到端用法,请查看此示例。