Skip to main content
Open on GitHub

Grobid

GROBID 是一个用于提取、解析和重构原始文档的机器学习库。

该框架专为解析学术论文而设计,并预期在此类场景中得到广泛应用,且表现尤为出色。

注意: 如果提供给 Grobid 的文章是大型文档(例如学位论文),且元素数量超过一定限制,可能无法处理。

本页面介绍如何使用 Grobid 解析文章以用于 LangChain。

安装

Grobid 的安装细节在 https://grobid.readthedocs.io/en/latest/Install-Grobid/ 中有详细描述。 然而,通过 Docker 容器运行 Grobid 可能更简单、更少麻烦, 正如 此处 所文档化所述。

使用 Grobid 与 LangChain

一旦 grobid 安装并正常运行(您可以通过访问 http://localhost:8070 来检查), 您就可以开始使用了。

您现在可以使用 GrobidParser 来生成文档

from langchain_community.document_loaders.parsers import GrobidParser
from langchain_community.document_loaders.generic import GenericLoader

#Produce chunks from article paragraphs
loader = GenericLoader.from_filesystem(
"/Users/31treehaus/Desktop/Papers/",
glob="*",
suffixes=[".pdf"],
parser= GrobidParser(segment_sentences=False)
)
docs = loader.load()

#Produce chunks from article sentences
loader = GenericLoader.from_filesystem(
"/Users/31treehaus/Desktop/Papers/",
glob="*",
suffixes=[".pdf"],
parser= GrobidParser(segment_sentences=True)
)
docs = loader.load()

块元数据将包含边界框。尽管这些解析起来有些棘手, 但它们在 https://grobid.readthedocs.io/en/latest/Coordinates-in-PDF/ 中有详细说明