Skip to main content
Open In ColabOpen on GitHub

PullMd 加载器

使用pull.md服务将URL转换为Markdown的加载器。

此包实现了用于网页内容的文档加载器。与传统的网页抓取工具不同,PullMdLoader 可以处理使用 React、Angular 或 Vue.js 等动态 JavaScript 框架构建的网页,将其转换为 Markdown 格式而无需本地渲染。

概览

集成细节

Class本地序列化JS支持
PullMdLoaderlangchain-pull-md

设置

安装

pip install langchain-pull-md

初始化

from langchain_pull_md.markdown_loader import PullMdLoader

# Instantiate the loader with a URL
loader = PullMdLoader(url="https://example.com")

加载

documents = loader.load()
documents[0].metadata
{'source': 'https://example.com',
'page_content': '# Example Domain\nThis domain is used for illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.'}

懒加载

未实现懒加载。每当调用load方法时,PullMdLoader会实时将提供的URL转换为Markdown格式。

API参考: