Skip to main content
Open on GitHub

MediaWikiDump

MediaWiki XML 转储 包含维基的内容 (包括所有修订版本的维基页面),但不包含与站点相关的数据。XML 转储不会创建维基数据库的完整备份, 该转储不包含用户账户、图片、编辑日志等。

安装与设置

我们需要安装几个 Python 包。

The mediawiki-utilities supports XML schema 0.11 in unmerged branches.

pip install -qU git+https://github.com/mediawiki-utilities/python-mwtypes@updates_schema_0.11

The mediawiki-utilities mwxml 有一个错误,修复的 PR 待处理。

pip install -qU git+https://github.com/gdedrouas/python-mwxml@xml_format_0.11
pip install -qU mwparserfromhell

文档加载器

查看 使用示例

from langchain_community.document_loaders import MWDumpLoader
API 参考:MWDumpLoader