Skip to main content
Open In Colab在 GitHub 上打开

拉 MdLoader

Loader,用于使用 pull.md 服务将 URL 转换为 Markdown。

此包实现 Web 内容的文档加载程序。与传统的网页爬虫不同,PullMdLoader 可以处理使用 React、Angular 或 Vue.js 等动态 JavaScript 框架构建的网页,将它们转换为 Markdown,而无需本地渲染。

概述

集成详细信息

本地化序列 化JS 支持
PullMdLoaderlangchain-pull-md

设置

安装

pip install langchain-pull-md

初始化

from langchain_pull_md.markdown_loader import PullMdLoader

# Instantiate the loader with a URL
loader = PullMdLoader(url="https://example.com")

负荷

documents = loader.load()
documents[0].metadata
{'source': 'https://example.com',
'page_content': '# Example Domain\nThis domain is used for illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.'}

延迟加载

未实现延迟加载。PullMdLoader将提供的 URL 实时转换为 Markdown 格式,每当load方法。

API 参考: