Doctran
Doctran 是一个 Python 包。它利用大语言模型(LLM)和开源 NLP 库,将原始文本转换为干净、结构化且信息密集的文档,这些文档专为向量空间检索进行了优化。您可以将
Doctran视为一个黑盒:杂乱的字符串输入,输出的是整洁、清晰且带有标签的字符串。
安装与设置¶
pip install doctran
文档转换器¶
文档 interrogator
查看 DoctranQATransformer 的使用示例。
from langchain_community.document_loaders import DoctranQATransformer
属性提取器
查看 DoctranPropertyExtractor 的使用示例。
from langchain_community.document_loaders import DoctranPropertyExtractor
文档翻译器
查看 DoctranTextTranslator 的使用示例。
from langchain_community.document_loaders import DoctranTextTranslator