PullMd Loader
PullMd 是一个将网页转换为Markdown格式的服务。
langchain-pull-md包利用此服务将URL,特别是那些由React、Angular或Vue.js等JavaScript框架渲染的URL,转换为Markdown格式,无需进行本地渲染。
安装与设置¶
要开始使用 langchain-pull-md,您需要通过 pip 安装该软件包:
pip install langchain-pull-md
请参阅使用示例以获取详细的集成和使用说明。
文档加载器¶
PullMdLoader类在langchain-pull-md中提供了一种简单的方法,用于将URL转换为Markdown。它特别适用于从现代网络应用程序加载内容以供LangChain的处理能力使用。
from langchain_pull_md import PullMdLoader
# Initialize the loader with a URL of a JavaScript-rendered webpage
loader = PullMdLoader(url='https://example.com')
# Load the content as a Document
documents = loader.load()
# Access the Markdown content
for document in documents:
print(document.page_content)
此加载器支持任何网址,并特别擅长处理由动态JavaScript构建的网站,使其成为数据处理工作流程中提取Markdown格式内容的多功能工具。
API 参考
要了解所有可用功能及其参数的完整指南,请访问API 参考。