Skip to main content
Open In Colab在 GitHub 上打开

网站地图

WebBaseLoader,SitemapLoader从给定的 URL 加载站点地图,然后抓取并加载站点地图中的所有页面,将每个页面作为文档返回。

抓取是同时进行的。并发请求有合理的限制,默认为每秒 2 个。如果您不关心成为一个好公民,或者您控制着废弃的服务器,或者不关心负载,您可以增加此限制。请注意,虽然这会加快抓取过程,但可能会导致服务器阻止您。小心!

概述

集成详细信息

本地化序列 化JS 支持
SiteMapLoaderlangchain_community

Loader 功能

文档延迟加载原生异步支持
SiteMapLoader

设置

要访问 SiteMap 文档加载器,您需要安装langchain-community集成包。

凭据

运行此命令不需要任何凭证。

要启用模型调用的自动跟踪,请设置您的 LangSmith API 密钥:

# os.environ["LANGSMITH_API_KEY"] = getpass.getpass("Enter your LangSmith API key: ")
# os.environ["LANGSMITH_TRACING"] = "true"

安装

安装 langchain_community

%pip install -qU langchain-community

修复 notebook asyncio bug

import nest_asyncio

nest_asyncio.apply()

初始化

现在我们可以实例化我们的模型对象并加载文档:

from langchain_community.document_loaders.sitemap import SitemapLoader
API 参考:SitemapLoader
sitemap_loader = SitemapLoader(web_path="https://api.python.langchain.com/sitemap.xml")

负荷

docs = sitemap_loader.load()
docs[0]
Fetching pages: 100%|##########| 28/28 [00:04<00:00,  6.83it/s]
Document(metadata={'source': 'https://api.python.langchain.com/en/stable/', 'loc': 'https://api.python.langchain.com/en/stable/', 'lastmod': '2024-05-15T00:29:42.163001+00:00', 'changefreq': 'weekly', 'priority': '1'}, page_content='\n\n\n\n\n\n\n\n\n\nLangChain Python API Reference Documentation.\n\n\nYou will be automatically redirected to the new location of this page.\n\n')
print(docs[0].metadata)
{'source': 'https://api.python.langchain.com/en/stable/', 'loc': 'https://api.python.langchain.com/en/stable/', 'lastmod': '2024-05-15T00:29:42.163001+00:00', 'changefreq': 'weekly', 'priority': '1'}

您可以将requests_per_second参数增加最大并发请求数。并使用requests_kwargs在发送请求时传递 kwargs。

sitemap_loader.requests_per_second = 2
# Optional: avoid `[SSL: CERTIFICATE_VERIFY_FAILED]` issue
sitemap_loader.requests_kwargs = {"verify": False}

延迟加载

您还可以延迟加载页面,以最大程度地减少内存负载。

page = []
for doc in sitemap_loader.lazy_load():
page.append(doc)
if len(page) >= 10:
# do some paged operation, e.g.
# index.upsert(page)

page = []
Fetching pages: 100%|##########| 28/28 [00:01<00:00, 19.06it/s]

过滤站点地图 URL

站点地图可以是包含数千个 URL 的海文件。通常你不需要他们中的每一个。您可以通过将字符串列表或正则表达式模式传递给filter_urls参数。将仅加载与其中一个模式匹配的 URL。

loader = SitemapLoader(
web_path="https://api.python.langchain.com/sitemap.xml",
filter_urls=["https://api.python.langchain.com/en/latest"],
)
documents = loader.load()
documents[0]
Document(page_content='\n\n\n\n\n\n\n\n\n\nLangChain Python API Reference Documentation.\n\n\nYou will be automatically redirected to the new location of this page.\n\n', metadata={'source': 'https://api.python.langchain.com/en/latest/', 'loc': 'https://api.python.langchain.com/en/latest/', 'lastmod': '2024-02-12T05:26:10.971077+00:00', 'changefreq': 'daily', 'priority': '0.9'})

添加自定义抓取规则

SitemapLoader使用beautifulsoup4对于抓取过程,默认情况下它会抓取页面上的每个元素。这SitemapLoaderconstructor 接受自定义抓取函数。此功能有助于根据您的特定需求定制抓取过程;例如,您可能希望避免抓取标题或 Navigation 元素。

以下示例说明如何开发和使用自定义函数来避免导航和标题元素。

导入beautifulsoup4库并定义自定义函数。

pip install beautifulsoup4
from bs4 import BeautifulSoup


def remove_nav_and_header_elements(content: BeautifulSoup) -> str:
# Find all 'nav' and 'header' elements in the BeautifulSoup object
nav_elements = content.find_all("nav")
header_elements = content.find_all("header")

# Remove each 'nav' and 'header' element from the BeautifulSoup object
for element in nav_elements + header_elements:
element.decompose()

return str(content.get_text())

将自定义函数添加到SitemapLoader对象。

loader = SitemapLoader(
"https://api.python.langchain.com/sitemap.xml",
filter_urls=["https://api.python.langchain.com/en/latest/"],
parsing_function=remove_nav_and_header_elements,
)

本地站点地图

sitemap loader 也可用于加载本地文件。

sitemap_loader = SitemapLoader(web_path="example_data/sitemap.xml", is_local=True)

docs = sitemap_loader.load()

API 参考

有关所有 SiteMapLoader 功能和配置的详细文档,请前往 API 参考:https://python.langchain.com/api_reference/community/document_loaders/langchain_community.document_loaders.sitemap.SitemapLoader.html#langchain_community.document_loaders.sitemap.SitemapLoader