MediaWikiDump
MediaWiki XML 转储 包含维基的内容 (包括所有修订版本的维基页面),但不包含与站点相关的数据。XML 转储不会创建维基数据库的完整备份, 该转储不包含用户账户、图片、编辑日志等。
安装与设置¶
我们需要安装几个 Python 包。
The mediawiki-utilities supports XML schema 0.11 in unmerged branches.
pip install -qU git+https://github.com/mediawiki-utilities/python-mwtypes@updates_schema_0.11
The mediawiki-utilities mwxml 有一个错误,修复的 PR 待处理。
pip install -qU git+https://github.com/gdedrouas/python-mwxml@xml_format_0.11
pip install -qU mwparserfromhell
文档加载器¶
查看 使用示例。
from langchain_community.document_loaders import MWDumpLoader
API 参考:MWDumpLoader