Skip to main content
Open In Colab在 GitHub 上打开

美利搜索

Meilisearch 是一个开源、快如闪电且高度相关的搜索引擎。它带有很好的默认值,可帮助开发人员构建快速的搜索体验。

您可以自托管 Meilisearch 或在 Meilisearch Cloud 上运行。

Meilisearch v1.3 支持向量搜索。本页将指导您将 Meilisearch 集成为向量存储,并使用它来执行向量搜索。

您需要安装langchain-communitypip install -qU langchain-community使用此集成

设置

启动 Meilisearch 实例

您将需要一个正在运行的 Meilisearch 实例作为您的向量存储。您可以在本地运行 Meilisearch 或创建 Meilisearch Cloud 帐户。

从 Meilisearch v1.3 开始,向量存储是一项实验性功能。启动 Meilisearch 实例后,您需要启用 vector 存储。对于自托管的 Meilisearch,请阅读有关启用实验性功能的文档。在 Meilisearch Cloud 上,通过项目 Settings 页面启用 Vector Store

现在,您应该有一个正在运行的 Meilisearch 实例,并启用了矢量存储。🎉

凭据

要与您的 Meilisearch 实例交互,Meilisearch SDK 需要一个主机(您实例的 URL)和一个 API 密钥。

主机

  • 在本地,默认主机为localhost:7700
  • Meilisearch Cloud 上,在项目 Settings 页面找到主机

API 密钥

Meilisearch 实例为您提供了三个开箱即用的 API 密钥:

  • 一个MASTER KEY— 它只应用于创建您的 Meilisearch 实例
  • 一个ADMIN KEY— 仅在服务器端使用它来更新您的数据库及其设置
  • 一个SEARCH KEY— 您可以在前端应用程序中安全地共享的密钥

您可以根据需要创建其他 API 密钥

安装依赖项

本指南使用 Meilisearch Python SDK。您可以通过运行以下命令来安装它:

%pip install --upgrade --quiet  meilisearch

有关更多信息,请参阅 Meilisearch Python SDK 文档

例子

有多种方法可以初始化 Meilisearch 矢量存储:根据需要提供 Meilisearch 客户端或 URLAPI 密钥。在我们的示例中,将从环境中加载凭证。

您可以使用osgetpass.您可以将此技术用于以下所有示例。

import getpass
import os

if "MEILI_HTTP_ADDR" not in os.environ:
os.environ["MEILI_HTTP_ADDR"] = getpass.getpass(
"Meilisearch HTTP address and port:"
)
if "MEILI_MASTER_KEY" not in os.environ:
os.environ["MEILI_MASTER_KEY"] = getpass.getpass("Meilisearch API Key:")

我们想要使用 OpenAIEmbeddings,所以我们必须获取 OpenAI API 密钥。

if "OPENAI_API_KEY" not in os.environ:
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

添加文本和嵌入

此示例将文本添加到 Meilisearch 向量数据库,而无需初始化 Meilisearch 向量存储。

from langchain_community.vectorstores import Meilisearch
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

embeddings = OpenAIEmbeddings()
embedders = {
"default": {
"source": "userProvided",
"dimensions": 1536,
}
}
embedder_name = "default"
with open("../../how_to/state_of_the_union.txt") as f:
state_of_the_union = f.read()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_text(state_of_the_union)
# Use Meilisearch vector store to store texts & associated embeddings as vector
vector_store = Meilisearch.from_texts(
texts=texts, embedding=embeddings, embedders=embedders, embedder_name=embedder_name
)

在幕后,Meilisearch 会将文本转换为多个向量。这将给我们带来与以下示例相同的结果。

添加文档和嵌入

在此示例中,我们将使用 Langchain TextSplitter 将文本拆分为多个文档。然后,我们将存储这些文档及其嵌入内容。

from langchain_community.document_loaders import TextLoader

# Load text
loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)

# Create documents
docs = text_splitter.split_documents(documents)

# Import documents & embeddings in the vector store
vector_store = Meilisearch.from_documents(
documents=documents,
embedding=embeddings,
embedders=embedders,
embedder_name=embedder_name,
)

# Search in our vector store
query = "What did the president say about Ketanji Brown Jackson"
docs = vector_store.similarity_search(query, embedder_name=embedder_name)
print(docs[0].page_content)
API 参考:TextLoader

通过创建 Meilisearch Vectorstore 添加文档

在这种方法中,我们创建一个 vector store 对象并向其添加文档。

import meilisearch
from langchain_community.vectorstores import Meilisearch

client = meilisearch.Client(url="http://127.0.0.1:7700", api_key="***")
vector_store = Meilisearch(
embedding=embeddings,
embedders=embedders,
client=client,
index_name="langchain_demo",
text_key="text",
)
vector_store.add_documents(documents)
API 参考:Meilisearch

带分数的相似性搜索

此特定方法允许您将文档和查询的距离分数返回给它们。embedder_name是应该用于语义搜索的嵌入器的名称,默认为 “default”。

docs_and_scores = vector_store.similarity_search_with_score(
query, embedder_name=embedder_name
)
docs_and_scores[0]

相似度 按向量搜索

embedder_name是应该用于语义搜索的嵌入器的名称,默认为 “default”。

embedding_vector = embeddings.embed_query(query)
docs_and_scores = vector_store.similarity_search_by_vector(
embedding_vector, embedder_name=embedder_name
)
docs_and_scores[0]

其他资源

文档

开源存储库