Diffbot
Diffbot 是一套基于 ML 的产品,可以轻松构建和集成 Web 数据。
安装和设置
获取免费的 Diffbot API 令牌,并按照这些说明验证您的请求。
文档加载器
Diffbot 的 Extract API 是一项构建和规范网页数据的服务。
与传统的 Web 抓取工具不同,Diffbot Extract不需要任何规则来读取页面上的内容。它使用计算机视觉模型将页面分类为 20 种可能的类型之一,然后将原始 HTML 标记转换为 JSON。生成的结构化 JSON 遵循一致的基于类型的本体,这使得从具有相同架构的多个不同 Web 源中提取数据变得容易。
请参阅使用示例。
from langchain_community.document_loaders import DiffbotLoader
API 参考:DiffbotLoader
图形
Diffbot 的自然语言处理 API 允许从非结构化文本数据中提取实体、关系和语义含义。
请参阅使用示例。
from langchain_experimental.graph_transformers.diffbot import DiffbotGraphTransformer
API 参考:DiffbotGraphTransformer