浏览器库
Browserbase 是一个开发人员平台,用于可靠地运行、管理和监控无头浏览器。
通过以下方式为您的 AI 数据检索提供支持:
- 无服务器基础设施提供可靠的浏览器以从复杂的 UI 中提取数据
- 隐身模式,包含指纹识别策略和自动验证码破解
- Session Debugger 使用网络、时间线和日志检查您的浏览器会话
- Live Debug 可快速调试自动化
安装和设置
- 从 browserbase.com 获取 API 密钥和项目 ID,并在环境变量 (
BROWSERBASE_API_KEY,BROWSERBASE_PROJECT_ID). - 安装 Browserbase SDK:
%pip install browserbase
加载文档
你可以使用 LangChain 将网页加载到 LangChain 中BrowserbaseLoader.或者,您可以将text_content参数将页面转换为纯文本表示形式。
import os
from langchain_community.document_loaders import BrowserbaseLoader
load_dotenv()
BROWSERBASE_API_KEY = os.getenv("BROWSERBASE_API_KEY")
BROWSERBASE_PROJECT_ID = os.getenv("BROWSERBASE_PROJECT_ID")
API 参考:BrowserbaseLoader
loader = BrowserbaseLoader(
api_key=BROWSERBASE_API_KEY,
project_id=BROWSERBASE_PROJECT_ID,
urls=[
"https://example.com",
],
# Text mode
text_content=False,
)
docs = loader.load()
print(docs[0].page_content[:61])
Loader 选项
urls必填。要获取的 URL 列表。text_content仅检索文本内容。默认值为False.api_keyBrowserbase API 密钥。默认值为BROWSERBASE_API_KEYenv 变量。project_idBrowserbase 项目 ID。默认值为BROWSERBASE_PROJECT_IDenv 变量。session_id自选。提供现有的会话 ID。proxy自选。启用/禁用代理。