Grobid
GROBID 是一个机器学习库,用于提取、解析和重新构建原始文档。
它被设计并预期用于解析学术论文,在这方面它的效果特别好。
注意:如果提供给 Grobid 的文章是超过一定数量的大型文件(例如学位论文) 元素中,它们可能不会被处理。
本页介绍了如何使用 Grobid 解析 LangChain 的文章。
安装
https://grobid.readthedocs.io/en/latest/Install-Grobid/ 中详细描述了 grobid 装置。 但是,通过 docker 容器运行 grobid 可能更容易、更省事。 如此处所述。
将 Grobid 与 LangChain 结合使用
一旦 grobid 安装并启动并运行(您可以通过访问 http://localhost:8070 进行检查), 你准备好了。
您现在可以使用 GrobidParser 生成文档
from langchain_community.document_loaders.parsers import GrobidParser
from langchain_community.document_loaders.generic import GenericLoader
#Produce chunks from article paragraphs
loader = GenericLoader.from_filesystem(
"/Users/31treehaus/Desktop/Papers/",
glob="*",
suffixes=[".pdf"],
parser= GrobidParser(segment_sentences=False)
)
docs = loader.load()
#Produce chunks from article sentences
loader = GenericLoader.from_filesystem(
"/Users/31treehaus/Desktop/Papers/",
glob="*",
suffixes=[".pdf"],
parser= GrobidParser(segment_sentences=True)
)
docs = loader.load()
API 参考:GrobidParser | 通用加载器
数据块元数据将包括 Bounding Box。虽然这些解析起来有点时髦, 它们在 https://grobid.readthedocs.io/en/latest/Coordinates-in-PDF/ 中进行了解释