Grobid

GROBID 是一个机器学习库，用于提取、解析和重新结构化原始文档。

它旨在用于解析学术论文，且在这一用途中表现尤为出色。

注意: 如果提供给Grobid的文章是大型文档（例如论文），并且元素数量超过一定限制，它们可能无法被处理。

本页面介绍如何使用 Grobid 解析文章以用于 LangChain。

安装

Grobid 的安装详情请参见 https://grobid.readthedocs.io/en/latest/Install-Grobid/。不过，通过 Docker 容器运行 Grobid 可能更简单且更少麻烦，如此处所述。

使用 LangChain 与 Grobid

一旦 grobid 安装并运行（您可以通过访问 http://localhost:8070 来检查），您就可以开始使用了。

现在你可以使用 GrobidParser 来生成文档。

from langchain_community.document_loaders.parsers import GrobidParser
from langchain_community.document_loaders.generic import GenericLoader

#Produce chunks from article paragraphs
loader = GenericLoader.from_filesystem(
    "/Users/31treehaus/Desktop/Papers/",
    glob="*",
    suffixes=[".pdf"],
    parser= GrobidParser(segment_sentences=False)
)
docs = loader.load()

#Produce chunks from article sentences
loader = GenericLoader.from_filesystem(
    "/Users/31treehaus/Desktop/Papers/",
    glob="*",
    suffixes=[".pdf"],
    parser= GrobidParser(segment_sentences=True)
)
docs = loader.load()

API 参考：GrobidParser | GenericLoader

分块元数据将包含边界框。尽管这些边界框在解析时有点复杂，但它们在 https://grobid.readthedocs.io/en/latest/Coordinates-in-PDF/ 中有详细说明

安装​

使用 LangChain 与 Grobid​

安装

使用 LangChain 与 Grobid