Dedoc
Dedoc 支持 DOCX, XLSX, PPTX, EML, HTML, PDF、图像等更多格式。
支持的完整格式列表可在此处找到:此处。
安装与设置¶
Dedoc 库
您可以使用pip安装Dedoc。
在这种情况下,您需要安装依赖项,
请访问此处
以获取更多信息。
pip install dedoc
Dedoc API
如果您打算使用 Dedoc API,则无需安装 dedoc 库。
在这种情况下,您应运行 Dedoc 服务,例如 Docker 容器(请参见
文档
以获取更多信息):
docker pull dedocproject/dedoc
docker run -p 1231:1231
文档加载器¶
-
对于处理任何格式的文件(由
Dedoc支持),您可以使用DedocFileLoader:from langchain_community.document_loaders import DedocFileLoader -
对于处理 PDF 文件(无论是否包含文本层),您可以使用
DedocPDFLoader:from langchain_community.document_loaders import DedocPDFLoader -
对于无需安装库即可处理任何格式的文件, 您可以使用
Dedoc API配合DedocAPIFileLoader:from langchain_community.document_loaders import DedocAPIFileLoader
请参阅 使用示例 以获取更多详细信息。