Meilisearch
Meilisearch 是一个开源的、极速且高度相关的搜索引擎。它具备出色的默认配置,可帮助开发者构建响应迅速的搜索体验。
您可以通过自托管 Meilisearch 或在Meilisearch Cloud上运行。
Meilisearch v1.3 支持向量搜索。本页面将指导您如何将 Meilisearch 集成为向量存储,并使用它执行向量搜索。
您需要使用 langchain-community 安装 pip install -qU langchain-community 才能使用此集成
设置
启动一个 Meilisearch 实例
您需要一个正在运行的 Meilisearch 实例作为您的向量存储。您可以在本地运行 Meilisearch,或者创建一个Meilisearch Cloud 账户。
从 Meilisearch v1.3 开始,向量存储是一个实验性功能。在启动 Meilisearch 实例后,您需要启用向量存储。对于自托管的 Meilisearch,请阅读关于启用实验性功能的文档。在Meilisearch Cloud上,可通过项目的设置页面启用向量存储。
您现在应该已经运行了一个启用向量存储的 Meilisearch 实例。🎉
Credentials
要与您的 Meilisearch 实例进行交互,Meilisearch SDK 需要一个主机地址(实例的 URL)和一个 API 密钥。
主机
- 在 本地 环境中,默认主机为
localhost:7700 - 在 Meilisearch Cloud 上,于项目的 设置 页面中查找主机
API 密钥
Meilisearch 实例为您提供了三种开箱即用的 API 密钥:
- 一个
MASTER KEY— 它仅应用于创建您的 Meilisearch 实例 - 一个
ADMIN KEY— 仅在服务器端使用,用于更新您的数据库及其设置 - 一个
SEARCH KEY— 一个您可以安全地在前端应用程序中共享的密钥
根据需要,您可以创建 额外的API密钥。
安装依赖项
本指南使用 Meilisearch Python SDK。你可以通过运行以下命令进行安装:
%pip install --upgrade --quiet meilisearch
有关更多信息,请参考Meilisearch Python SDK 文档。
示例
有多种方式可以初始化 Meilisearch 向量存储:可以根据需要提供一个 Meilisearch 客户端,或提供URL和API 密钥。在我们的示例中,凭据将从环境变量中加载。
您可以通过使用 os 和 getpass 在您的 Notebook 环境中使环境变量可用。以下所有示例均可使用此技术。
import getpass
import os
if "MEILI_HTTP_ADDR" not in os.environ:
os.environ["MEILI_HTTP_ADDR"] = getpass.getpass(
"Meilisearch HTTP address and port:"
)
if "MEILI_MASTER_KEY" not in os.environ:
os.environ["MEILI_MASTER_KEY"] = getpass.getpass("Meilisearch API Key:")
我们需要使用 OpenAIEmbeddings,因此必须获取 OpenAI API 密钥。
if "OPENAI_API_KEY" not in os.environ:
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")
添加文本和嵌入
此示例将文本添加到 Meilisearch 向量数据库,而无需初始化 Meilisearch 向量存储。
from langchain_community.vectorstores import Meilisearch
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter
embeddings = OpenAIEmbeddings()
embedders = {
"default": {
"source": "userProvided",
"dimensions": 1536,
}
}
embedder_name = "default"
with open("../../how_to/state_of_the_union.txt") as f:
state_of_the_union = f.read()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_text(state_of_the_union)
# Use Meilisearch vector store to store texts & associated embeddings as vector
vector_store = Meilisearch.from_texts(
texts=texts, embedding=embeddings, embedders=embedders, embedder_name=embedder_name
)
在后台,Meilisearch 会将文本转换为多个向量。这将使我们得到与以下示例相同的结果。
添加文档和嵌入
在这个示例中,我们将使用 Langchain 文本分割器将文本拆分为多个文档。然后,我们将这些文档及其嵌入向量一并存储。
from langchain_community.document_loaders import TextLoader
# Load text
loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
# Create documents
docs = text_splitter.split_documents(documents)
# Import documents & embeddings in the vector store
vector_store = Meilisearch.from_documents(
documents=documents,
embedding=embeddings,
embedders=embedders,
embedder_name=embedder_name,
)
# Search in our vector store
query = "What did the president say about Ketanji Brown Jackson"
docs = vector_store.similarity_search(query, embedder_name=embedder_name)
print(docs[0].page_content)
通过创建 Meilisearch 向量数据库来添加文档
在这种方法中,我们创建一个向量存储对象,并向其中添加文档。
import meilisearch
from langchain_community.vectorstores import Meilisearch
client = meilisearch.Client(url="http://127.0.0.1:7700", api_key="***")
vector_store = Meilisearch(
embedding=embeddings,
embedders=embedders,
client=client,
index_name="langchain_demo",
text_key="text",
)
vector_store.add_documents(documents)
相似性搜索(带分数)
此特定方法允许您返回文档以及查询与这些文档之间的距离分数。embedder_name 是应被用于语义搜索的嵌入器(embedder)的名称,默认值为 \"default\"。
docs_and_scores = vector_store.similarity_search_with_score(
query, embedder_name=embedder_name
)
docs_and_scores[0]
基于向量的相似性搜索
embedder_name 是应用于语义搜索的嵌入器(embedder)的名称,默认为 \"default\"。
embedding_vector = embeddings.embed_query(query)
docs_and_scores = vector_store.similarity_search_by_vector(
embedding_vector, embedder_name=embedder_name
)
docs_and_scores[0]
附加资源
文档
开源仓库