PullMd Loader
PullMd 是一种将网页转换为 Markdown 格式的服务。这
langchain-pull-mdpackage 利用此服务将 URL(尤其是使用 React、Angular 或 Vue.js 等 JavaScript 框架渲染的 URL)转换为 Markdown,而无需本地渲染。
安装和设置
开始使用langchain-pull-md,您需要通过 pip 安装包:
pip install langchain-pull-md
有关详细的集成和使用说明,请参阅使用示例。
文档加载器
这PullMdLoader类langchain-pull-md提供了一种将 URL 转换为 Markdown 的简单方法。它对于从现代 Web 应用程序加载内容以在 LangChain 的处理功能中使用特别有用。
from langchain_pull_md import PullMdLoader
# Initialize the loader with a URL of a JavaScript-rendered webpage
loader = PullMdLoader(url='https://example.com')
# Load the content as a Document
documents = loader.load()
# Access the Markdown content
for document in documents:
print(document.page_content)
此加载器支持任何 URL,并且特别擅长处理使用动态 JavaScript 构建的网站,使其成为数据处理工作流中用于 Markdown 提取的多功能工具。
API 参考
有关所有可用函数及其参数的全面指南,请访问 API 参考。