Skip to main content
Open In Colab在 GitHub 上打开

HyperbrowserLoader

Hyperbrowser 是一个用于运行和扩展无头浏览器的平台。它允许您大规模启动和管理浏览器会话,并为任何网络抓取需求提供易于使用的解决方案,例如抓取单个页面或抓取整个站点。

主要特点:

  • 即时可扩展性 - 在几秒钟内启动数百个浏览器会话,而不会遇到基础设施问题
  • 简单集成 - 与 Puppeteer 和 Playwright 等流行工具无缝协作
  • 强大的 API - 易于使用的 API 用于抓取/抓取任何站点等等
  • 绕过反僵尸程序措施 - 内置隐身模式、广告拦截、自动 CAPTCHA 解决和轮换代理

此笔记本提供了 Hyperbrowser 文档加载器入门的快速概述。

有关 Hyperbrowser 的更多信息,请访问 Hyperbrowser 网站,或者如果您想查看文档,可以访问 Hyperbrowser 文档

概述

集成详细信息

本地化序列 化JS 支持
HyperbrowserLoaderlangchain-hyperbrowser

Loader 功能

文档延迟加载原生异步支持
HyperbrowserLoader

设置

要访问 Hyperbrowser 文档加载器,您需要安装langchain-hyperbrowser集成包,并创建 Hyperbrowser 帐户并获取 API 密钥。

凭据

前往 Hyperbrowser 注册并生成 API 密钥。完成此作后,设置 HYPERBROWSER_API_KEY 环境变量:

安装

安装 langchain-hyperbrowser

%pip install -qU langchain-hyperbrowser

初始化

现在我们可以实例化我们的模型对象并加载文档:

from langchain_hyperbrowser import HyperbrowserLoader

loader = HyperbrowserLoader(
urls="https://example.com",
api_key="YOUR_API_KEY",
)

负荷

docs = loader.load()
docs[0]
Document(metadata={'title': 'Example Domain', 'viewport': 'width=device-width, initial-scale=1', 'sourceURL': 'https://example.com'}, page_content='Example Domain\n\n# Example Domain\n\nThis domain is for use in illustrative examples in documents. You may use this\ndomain in literature without prior coordination or asking for permission.\n\n[More information...](https://www.iana.org/domains/example)')
print(docs[0].metadata)

延迟加载

page = []
for doc in loader.lazy_load():
page.append(doc)
if len(page) >= 10:
# do some paged operation, e.g.
# index.upsert(page)

page = []

高级用法

您可以指定要由 loader 执行的作。默认作为scrape.为scrape中,您可以提供单个 URL 或要抓取的 URL 列表。为crawl,则只能提供一个 URL。这crawl作将抓取提供的页面和子页面,并为每个页面返回一个文档。

loader = HyperbrowserLoader(
urls="https://hyperbrowser.ai", api_key="YOUR_API_KEY", operation="crawl"
)

loader 的可选参数也可以在params论点。有关支持的参数的更多信息,请访问 https://docs.hyperbrowser.ai/reference/sdks/python/scrape#start-scrape-job-and-waithttps://docs.hyperbrowser.ai/reference/sdks/python/crawl#start-crawl-job-and-wait

loader = HyperbrowserLoader(
urls="https://example.com",
api_key="YOUR_API_KEY",
operation="scrape",
params={"scrape_options": {"include_tags": ["h1", "h2", "p"]}},
)

API 参考