📄️ AI21SemanticTextSplitter
此示例介绍了如何在 LangChain 中使用 AI21SemanticTextSplitter。
📄️ Beautiful Soup
Beautiful Soup 是一个用于解析的 Python 包
📄️ Cross Encoder Reranker
本笔记本展示了如何使用您自己的交叉编码器在检索器中实现 reranker,这些交叉编码器来自 Hugging Face 交叉编码器模型或实现交叉编码器功能的 Hugging Face 模型(示例:BAAI/bge-reranker-base)。SagemakerEndpointCrossEncoder 使您能够使用 SageMaker 上加载的这些 HuggingFace 模型。
📄️ DashScope Reranker
此笔记本介绍如何使用 DashScope Reranker 进行文档压缩和检索。DashScope 是阿里云 (Aliyun) 的生成式 AI 服务。
📄️ Doctran: extract properties
我们可以使用 Doctran 库提取文档的有用特征,该库使用 OpenAI 的函数调用功能来提取特定的元数据。
📄️ Doctran: interrogate documents
矢量存储知识库中使用的文档通常以叙述或对话格式存储。但是,大多数用户查询都是问题格式。如果我们在矢量化文档之前将文档转换为 Q&A 格式,我们可以增加检索相关文档的可能性,并降低检索不相关文档的可能性。
📄️ Doctran: language translation
通过嵌入比较文档的好处是可以跨多种语言工作。“Harrison says hello” 和 “Harrison dice hola” 将在向量空间中占据相似的位置,因为它们在语义上具有相同的含义。
📄️ Google Cloud Vertex AI Reranker
Vertex Search Ranking API 是 Vertex AI Agent Builder 中的独立 API 之一。它采用文档列表,并根据文档与查询的相关程度对这些文档进行重新排序。与仅查看文档和查询的语义相似性的嵌入相比,排名 API 可以为您提供文档回答给定查询的准确分数。排名 API 可用于在检索一组初始候选文档后提高搜索结果的质量。
📄️ Google Cloud Document AI
Document AI 是 Google Cloud 的一个文档理解平台,用于将文档中的非结构化数据转换为结构化数据,使其更易于理解、分析和使用。
📄️ Google Translate
Google 翻译是由 Google 开发的多语言神经机器翻译服务,用于将文本、文档和网站从一种语言翻译成另一种语言。
📄️ HTML to text
html2text 是一个 Python 包,用于将 HTML 页面转换为干净、易于阅读的纯 ASCII 文本。
📄️ Infinity Reranker
Infinity 是一种高吞吐量、低延迟的 REST API,用于提供文本嵌入、重新排名模型和剪辑。
📄️ Jina Reranker
此笔记本介绍如何使用 Jina Reranker 进行文档压缩和检索。
📄️ Markdownify
markdownify 是一个 Python 包,可将 HTML 文档转换为 Markdown 格式,其中包含用于处理标签(链接、图像等)、标题样式等的可自定义选项。
📄️ Nuclia
Nuclia 会自动为来自任何内部和外部来源的非结构化数据编制索引,从而提供优化的搜索结果和生成式答案。它可以处理视频和音频转录、图像内容提取和文档解析。
📄️ OpenAI metadata tagger
使用结构化元数据(如文档的标题、语气或长度)标记摄取的文档通常很有用,以便稍后进行更有针对性的相似性搜索。但是,对于大量文档,手动执行此标记过程可能很繁琐。
📄️ OpenVINO Reranker
OpenVINO™ 是一个用于优化和部署 AI 推理的开源工具包。OpenVINO™ 运行时支持各种硬件设备,包括 x86 和 ARM CPU 以及 Intel GPU。它可以帮助提高计算机视觉、自动语音识别、自然语言处理和其他常见任务中的深度学习性能。
📄️ RankLLM Reranker
RankLLM 是一个灵活的重新排名框架,支持列表、成对和逐点排名模型。它包括 RankVicuna、RankZephyr、MonoT5、DuoT5、LiT5 和 FirstMistral,并集成了 FastChat、vLLM、SGLang 和 TensorRT-LLM,以实现高效推理。RankLLM 针对检索和排名任务进行了优化,利用开源 LLM 和 RankGPT 和 RankGemini 等专有重新排序器。它支持通过 BM25 和 SPLADE 进行批量推理、第一标记重新排序和检索。
📄️ Volcengine Reranker
此笔记本介绍如何使用 Volcengine Reranker 进行文档压缩和检索。Volcengine 是由 TikTok 的母公司字节跳动开发的云服务平台。
📄️ VoyageAI Reranker
Voyage AI 提供尖端的嵌入/矢量化模型。