Skip to main content
在 GitHub 上打开

Beautiful Soup

Beautiful Soup 是一个用于解析的 Python 包 HTML 和 XML 文档(包括格式错误的标记,即非封闭标签,因此以标签 soup 命名)。 它为解析的页面创建一个解析树,可用于从 HTML 中提取数据,[3] 对于网络抓取很有用。

安装和设置

pip install beautifulsoup4

文档转换器

请参阅使用示例

from langchain_community.document_loaders import BeautifulSoupTransformer