Skip to main content
Open In Colab在 GitHub 上打开

如何加载 HTML

超文本标记语言或 HTML 是设计用于在 Web 浏览器中显示的文档的标准标记语言。

这涵盖了如何加载HTMLdocuments 转换为 LangChain Document 对象中,以便我们可以在下游使用。

解析 HTML 文件通常需要专门的工具。在这里,我们演示了通过 UnstructuredBeautifulSoup4 进行解析,它们可以通过 pip 安装。前往集成页面查找与其他服务的集成,例如 Azure AI Document IntelligenceFireCrawl

使用 Unstructured 加载 HTML

%pip install unstructured
from langchain_community.document_loaders import UnstructuredHTMLLoader

file_path = "../../docs/integrations/document_loaders/example_data/fake-content.html"

loader = UnstructuredHTMLLoader(file_path)
data = loader.load()

print(data)
[Document(page_content='My First Heading\n\nMy first paragraph.', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html'})]

使用 BeautifulSoup4 加载 HTML

我们还可以使用BeautifulSoup4使用BSHTMLLoader.这会将文本从 HTML 提取到page_content,页面标题为titlemetadata.

%pip install bs4
from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader(file_path)
data = loader.load()

print(data)
API 参考:BSHTMLLoader
[Document(page_content='\nTest Title\n\n\nMy First Heading\nMy first paragraph.\n\n\n', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html', 'title': 'Test Title'})]