Skip to main content
在 GitHub 上打开

Unstructured

unstructuredpackage from Unstructured.IO 从原始源文档(如 PDF 和 Word 文档。 本页介绍如何使用unstructured生态系统中。

安装和设置

如果您使用的是在本地运行的加载程序,请使用以下步骤来获取unstructured及其 dependencies 正在运行。

  • 为了实现最小的安装占用空间,并利用 开源unstructured包中,使用pip install unstructured-client以及pip install langchain-unstructured要使用UnstructuredLoader和分区 远程针对非结构化 API 的 API 进行验证。此加载程序存活 在 LangChain 合作伙伴存储库中,而不是langchain-communityrepo 中,您将需要一个api_key,您可以在此处生成免费密钥。

  • 要在本地运行所有内容,请使用pip install unstructured以及pip install langchain-community并使用相同的UnstructuredLoader如上所述。

    • 你可以安装带有 extras 的文档特定依赖项,例如pip install "unstructured[docx]".在此处了解有关附加服务的更多信息。
    • 要安装所有文档类型的依赖项,请使用pip install "unstructured[all-docs]".
  • 如果您的系统上尚不可用,请安装以下系统依赖项,例如brew install适用于 Mac。 根据要解析的文档类型,您可能不需要所有这些。

    • libmagic-dev(文件类型检测)
    • poppler-utils(图像和 PDF)
    • tesseract-ocr(图像和 PDF)
    • qpdf(PDF格式)
    • libreoffice(MS Office 文档)
    • pandoc(EPUB)
  • 在本地运行时,Unstructured 还建议按照以下方式使用 Docker 确保所有 系统依赖项已正确安装。

非结构化 API 需要 API 密钥才能发出请求。 您可以在此处申请 API 密钥并立即开始使用! 在此处查看 README 以开始进行 API 调用。 我们很想听听您的反馈,让我们知道我们的社区 Slack 进展如何。 请继续关注质量和性能的改进! 如果您想自托管非结构化 API 或在本地运行它,请查看此处的说明。

数据加载器

的主要用途Unstructured位于数据加载器中。

非结构加载器

请参阅使用示例,了解如何使用 此加载程序用于使用无服务器非结构化 API 在本地和远程进行分区。

from langchain_unstructured import UnstructuredLoader
API 参考:UnstructuredLoader

UnstructuredCHMLoader

CHM方法Microsoft Compiled HTML Help.

from langchain_community.document_loaders import UnstructuredCHMLoader

非结构化 CSVLoader

一个comma-separated values (CSV) 文件是一个分隔的文本文件,它使用 用于分隔值的逗号。文件的每一行都是一条数据记录。 每条记录由一个或多个字段组成,用逗号分隔。

请参阅使用示例

from langchain_community.document_loaders import UnstructuredCSVLoader

UnstructuredEmailLoader

请参阅使用示例

from langchain_community.document_loaders import UnstructuredEmailLoader

非结构化 EPubLoader

EPUB 是一个e-book file format使用 “.epub” 文件扩展名。该术语是电子出版物的缩写,并且 有时是样式ePub.EPUB受到许多电子阅读器的支持,并且兼容 软件适用于大多数智能手机、平板电脑和计算机。

请参阅使用示例

from langchain_community.document_loaders import UnstructuredEPubLoader

非结构化 ExcelLoader

请参阅使用示例

from langchain_community.document_loaders import UnstructuredExcelLoader

UnstructuredFileIOLoader

请参阅使用示例

from langchain_community.document_loaders import UnstructuredFileIOLoader

非结构化HTMLLoader

请参阅使用示例

from langchain_community.document_loaders import UnstructuredHTMLLoader

非结构化图像加载器

请参阅使用示例

from langchain_community.document_loaders import UnstructuredImageLoader

非结构化MarkdownLoader

请参阅使用示例

from langchain_community.document_loaders import UnstructuredMarkdownLoader

UnstructuredODTLoader

Open Document Format for Office Applications (ODF),也称为OpenDocument, 是一种用于文字处理文档、电子表格、演示文稿的开放文件格式 和图形以及使用 ZIP 压缩的 XML 文件。它的开发目的是 为 Office 应用程序提供基于 XML 的开放文件格式规范。

请参阅使用示例

from langchain_community.document_loaders import UnstructuredODTLoader

UnstructuredOrgModeLoader

组织模式文档是一种文档编辑、格式化和组织模式,专为在免费软件文本编辑器 Emacs 中进行注释、规划和创作而设计。

请参阅使用示例

from langchain_community.document_loaders import UnstructuredOrgModeLoader

非结构化 PDFLoader

请参阅使用示例

from langchain_community.document_loaders import UnstructuredPDFLoader

非结构化 PowerPointLoader

请参阅使用示例

from langchain_community.document_loaders import UnstructuredPowerPointLoader

UnstructuredRSTLoader

一个reStructured Text (RST) 文件是文本数据的文件格式 主要用于 Python 编程语言社区的技术文档。

请参阅使用示例

from langchain_community.document_loaders import UnstructuredRSTLoader

UnstructuredRTFLoader

请参阅 API 文档中的使用示例。

from langchain_community.document_loaders import UnstructuredRTFLoader

非结构化TSVLoader

一个tab-separated values (TSV) 文件是一种简单的基于文本的文件格式,用于存储表格数据。 记录用换行符分隔,记录中的值用制表符分隔。

请参阅使用示例

from langchain_community.document_loaders import UnstructuredTSVLoader

UnstructuredURLLoader

请参阅使用示例

from langchain_community.document_loaders import UnstructuredURLLoader

非结构化WordDocumentLoader

请参阅使用示例

from langchain_community.document_loaders import UnstructuredWordDocumentLoader

UnstructuredXMLLoader

请参阅使用示例

from langchain_community.document_loaders import UnstructuredXMLLoader