Skip to main content
在 GitHub 上打开

Doctran

Doctran 是一个 python 包。它使用 LLM 和开源 NLP 库,用于将原始文本转换为干净、结构化、信息密集的文档 针对向量空间检索进行了优化。您可以想到Doctran作为黑盒,其中 凌乱的琴弦进来,漂亮、干净、贴标签的琴弦出来。

安装和设置

pip install doctran

文档转换器

文档询问器

请参阅 DoctranQATransformer 的使用示例

from langchain_community.document_loaders import DoctranQATransformer

属性提取器

请参阅 DoctranPropertyExtractor 的使用示例

from langchain_community.document_loaders import DoctranPropertyExtractor

文档翻译器

请参阅 DoctranTextTranslator 的使用示例

from langchain_community.document_loaders import DoctranTextTranslator