Skip to main content
Open In Colab在 GitHub 上打开

字幕

SubRip 文件格式Matroska多媒体容器格式网站作为“也许是所有字幕格式中最基本的”。SubRip (SubRip Text)文件以扩展名.srt,并包含由空行分隔的组中的格式化纯文本行。字幕从 1 开始按顺序编号。使用的时间码格式为小时:分钟:秒,毫秒,时间单位固定为两个填充为零的数字,分数固定为三个填充为零的数字 (00:00:00,000)。使用的分数分隔符是逗号,因为该程序是在法国编写的。

如何从字幕加载数据 (.srt) 文件

请从此处下载示例 .srt 文件

%pip install --upgrade --quiet  pysrt
from langchain_community.document_loaders import SRTLoader
API 参考:SRTLoader
loader = SRTLoader(
"example_data/Star_Wars_The_Clone_Wars_S06E07_Crisis_at_the_Heart.srt"
)
docs = loader.load()
docs[0].page_content[:100]
'<i>Corruption discovered\nat the core of the Banking Clan!</i> <i>Reunited, Rush Clovis\nand Senator A'