Skip to main content
在 GitHub 上打开

Dedoc

Dedoc 是一个开源库/服务,可提取文本、表格、附件和文档结构 (例如,标题、列表项等)从各种格式的文件中。

Dedoc支持DOCX,XLSX,PPTX,EML,HTML,PDF、图像等。 可在此处找到支持的格式的完整列表。

安装和设置

Dedoc 库

您可以安装Dedocpip. 在这种情况下,您需要安装依赖项 请前往此处获取更多信息。

pip install dedoc

Dedoc API

如果你打算使用DedocAPI,无需安装dedoc库。 在这种情况下,您应该运行Dedocservice,例如Docker容器(有关更多详细信息,请参阅文档):

docker pull dedocproject/dedoc
docker run -p 1231:1231

文档加载器

  • 用于处理任何格式的文件(由Dedoc),您可以使用DedocFileLoader:

    from langchain_community.document_loaders import DedocFileLoader
  • 要处理 PDF 文件(带或不带文本图层),您可以使用DedocPDFLoader:

    from langchain_community.document_loaders import DedocPDFLoader
  • 用于处理任何格式的文件而不安装库, 您可以使用Dedoc APIDedocAPIFileLoader:

    from langchain_community.document_loaders import DedocAPIFileLoader

有关更多详细信息,请参阅使用示例