Skip to main content
Open In ColabOpen on GitHub

SemaDB

SemaDB 来自 SemaFind,是一个用于构建 AI 应用程序的免麻烦向量相似性数据库。托管的 SemaDB Cloud 提供了简便的开发者体验,助您快速上手。

API 的完整文档、示例以及交互式 Playground 可在 RapidAPI 上获取。

该笔记本演示了 SemaDB Cloud 向量存储的使用方法。

您需要使用 langchain-community 安装 pip install -qU langchain-community 才能使用此集成

加载文档嵌入

为了在本地运行,我们使用Sentence Transformers,它通常用于句子嵌入。你可以使用 LangChain 提供的任何嵌入模型。

%pip install --upgrade --quiet  sentence_transformers
from langchain_huggingface import HuggingFaceEmbeddings

model_name = "sentence-transformers/all-mpnet-base-v2"
embeddings = HuggingFaceEmbeddings(model_name=model_name)
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter

loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=400, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
print(len(docs))
114

连接到 SemaDB

SemaDB Cloud 使用RapidAPI 密钥进行身份验证。您可以通过创建一个免费的 RapidAPI 账户来获取自己的密钥。

import getpass
import os

if "SEMADB_API_KEY" not in os.environ:
os.environ["SEMADB_API_KEY"] = getpass.getpass("SemaDB API Key:")
SemaDB API Key: ········
from langchain_community.vectorstores import SemaDB
from langchain_community.vectorstores.utils import DistanceStrategy
API 参考:SemaDB | 距离策略

SemaDB 向量存储的参数直接反映了该 API:

  • \"mycollection\":是我们将存储这些向量的集合名称。
  • 768:是向量的维度。在我们的例子中,句子转换器嵌入生成的是768维的向量。
  • API_KEY:是您的RapidAPI密钥。
  • embeddings:对应于如何生成文档、文本和查询的嵌入向量。
  • DistanceStrategy:是所使用的距离度量。如果使用COSINE,包装器会自动对向量进行归一化。
db = SemaDB("mycollection", 768, embeddings, DistanceStrategy.COSINE)

# Create collection if running for the first time. If the collection
# already exists this will fail.
db.create_collection()
True

SemaDB 向量存储包装器会将文档文本作为点元数据添加,以便后续收集。不建议存储大段文本。如果您正在索引大量文档,我们建议改为存储对文档的引用,例如外部 ID。

db.add_documents(docs)[:2]
['813c7ef3-9797-466b-8afa-587115592c6c',
'fc392f7f-082b-4932-bfcc-06800db5e017']

我们使用默认的 LangChain 相似性搜索接口来查找最相似的句子。

query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)
print(docs[0].page_content)
And I did that 4 days ago, when I nominated Circuit Court of Appeals Judge Ketanji Brown Jackson. One of our nation’s top legal minds, who will continue Justice Breyer’s legacy of excellence.
docs = db.similarity_search_with_score(query)
docs[0]
(Document(page_content='And I did that 4 days ago, when I nominated Circuit Court of Appeals Judge Ketanji Brown Jackson. One of our nation’s top legal minds, who will continue Justice Breyer’s legacy of excellence.', metadata={'source': '../../how_to/state_of_the_union.txt', 'text': 'And I did that 4 days ago, when I nominated Circuit Court of Appeals Judge Ketanji Brown Jackson. One of our nation’s top legal minds, who will continue Justice Breyer’s legacy of excellence.'}),
0.42369342)

清理

您可以删除集合以移除所有数据。

db.delete_collection()
True