Hyperbrowser

Hyperbrowser is a platform for running and scaling headless browsers. It lets you launch and manage browser sessions at scale and provides easy to use solutions for any webscraping needs, such as scraping a single page or crawling an entire site.

Key Features:

Instant Scalability - Spin up hundreds of browser sessions in seconds without infrastructure headaches

Simple Integration - Works seamlessly with popular tools like Puppeteer and Playwright

Powerful APIs - Easy to use APIs for scraping/crawling any site, and much more

Bypass Anti-Bot Measures - Built-in stealth mode, ad blocking, automatic CAPTCHA solving, and rotating proxies

有关Hyperbrowser的更多信息，请访问Hyperbrowser网站，或者如果你想查看文档，可以访问Hyperbrowser文档。

安装与设置

要开始使用 langchain-hyperbrowser，你可以使用 pip 安装该软件包：

pip install langchain-hyperbrowser

你应该通过设置以下环境变量来配置凭证：

HYPERBROWSER_API_KEY=<your-api-key>

请确保从 https://app.hyperbrowser.ai/ 获取您的API密钥

可用工具

Hyperbrowser 提供两类主要工具，特别适用于：

从复杂网站进行网络爬取和数据提取
自动化重复性的网络任务
与需要身份验证的网页应用程序进行交互
在多个网站上进行研究
测试网络应用程序

浏览器代理工具

Hyperbrowser 提供了多种浏览器代理工具。目前我们支持

Claude 计算机使用
OpenAI CUA
浏览器使用

你可以在此处查看详细信息这里

浏览器使用工具

一个通用的浏览器自动化工具，可以通过自然语言指令处理各种网络任务。

from langchain_hyperbrowser import HyperbrowserBrowserUseTool

tool = HyperbrowserBrowserUseTool()
result = tool.run({
    "task": "Go to npmjs.com, find the React package, and tell me when it was last updated"
})
print(result)

OpenAI CUA 工具

利用 OpenAI 的计算机使用代理功能，实现高级网页交互和信息收集。

from langchain_hyperbrowser import HyperbrowserOpenAICUATool

tool = HyperbrowserOpenAICUATool()
result = tool.run({
    "task": "Go to Hacker News and summarize the top 5 posts right now"
})
print(result)

Claude 计算机使用工具

利用 Anthropic 的 Claude 执行复杂的网络浏览和信息处理任务。

from langchain_hyperbrowser import HyperbrowserClaudeComputerUseTool

tool = HyperbrowserClaudeComputerUseTool()
result = tool.run({
    "task": "Go to GitHub's trending repositories page, and list the top 3 posts there right now"
})
print(result)

网页抓取工具

Hyperbrowser提供的网络爬虫工具简要描述如下。您可以点击这里查看更详细的信息

爬取工具

Scrape 工具允许你以 Markdown、HTML 或链接格式从单个网页中提取内容。

from langchain_hyperbrowser import HyperbrowserScrapeTool

tool = HyperbrowserScrapeTool()
result = tool.run({
    "url": "https://example.com",
    "scrape_options": {"formats": ["markdown"]}
})
print(result)

爬取工具

爬取工具可让您从指定的网址开始遍历整个网站，同时支持配置页面数量限制。

from langchain_hyperbrowser import HyperbrowserCrawlTool

tool = HyperbrowserCrawlTool()
result = tool.run({
    "url": "https://example.com",
    "max_pages": 2,
    "scrape_options": {"formats": ["markdown"]}
})
print(result)

提取工具

提取工具使用人工智能根据预定义的模式从网页中提取结构化数据，非常适合数据提取任务。

from langchain_hyperbrowser import HyperbrowserExtractTool
from pydantic import BaseModel

class SimpleExtractionModel(BaseModel):
    title: str

tool = HyperbrowserExtractTool()
result = tool.run({
    "url": "https://example.com",
    "schema": SimpleExtractionModel
})
print(result)

文档加载器

HyperbrowserLoader 类在 langchain-hyperbrowser 中可以轻松用于从单个页面或多个页面加载内容，也可以爬取整个网站。内容可以以 Markdown 或 HTML 格式加载。

from langchain_hyperbrowser import HyperbrowserLoader

loader = HyperbrowserLoader(urls="https://example.com")
docs = loader.load()

print(docs[0])

高级用法

您可以指定加载器要执行的操作。默认操作是 scrape。对于 scrape，您可以提供一个单一的URL或一组URL进行抓取。对于 crawl，您只能提供一个单一的URL。操作 crawl 将爬取提供的页面及其子页面，并为每个页面返回一个文档。

loader = HyperbrowserLoader(
  urls="https://hyperbrowser.ai", api_key="YOUR_API_KEY", operation="crawl"
)

加载器的可选参数也可以在 params 参数中提供。有关支持参数的更多信息，请访问 https://docs.hyperbrowser.ai/reference/sdks/python/scrape#start-scrape-job-and-wait 或 https://docs.hyperbrowser.ai/reference/sdks/python/crawl#start-crawl-job-and-wait。

loader = HyperbrowserLoader(
  urls="https://example.com",
  api_key="YOUR_API_KEY",
  operation="scrape",
  params={"scrape_options": {"include_tags": ["h1", "h2", "p"]}}
)

安装与设置​

可用工具​

浏览器代理工具​

浏览器使用工具​

OpenAI CUA 工具​

Claude 计算机使用工具​

网页抓取工具​

爬取工具​

爬取工具​

提取工具​

文档加载器​

高级用法​

更多资源​

安装与设置

可用工具

浏览器代理工具

浏览器使用工具

OpenAI CUA 工具

Claude 计算机使用工具

网页抓取工具

爬取工具

爬取工具

提取工具

文档加载器

高级用法

更多资源