Diffbot
Diffbot 是一套基于机器学习的工具套件,可轻松实现网络数据的结构化与集成。
安装与设置¶
获取免费的 Diffbot API 令牌 并 遵循这些说明 以验证您的请求。
文档加载器¶
Diffbot 的 Extract API 是一项将网页数据结构化并标准化的服务。
与传统网络爬虫工具不同,Diffbot Extract无需任何规则即可读取页面内容。它利用计算机视觉模型将页面分类为20种可能类型之一,然后将原始HTML标记转换为JSON。生成的结构化JSON遵循一致的基于类型的本体论,使得从具有相同模式的不同Web来源提取数据变得简单。
查看 使用示例。
from langchain_community.document_loaders import DiffbotLoader
API 参考:DiffbotLoader
图谱¶
Diffbot的自然语言处理API允许从非结构化文本数据中提取实体、关系和语义含义。
查看 使用示例。
from langchain_experimental.graph_transformers.diffbot import DiffbotGraphTransformer
API 参考:DiffbotGraphTransformer