Skip to main content
Open In Colab在 GitHub 上打开

缓存

嵌入可以存储或临时缓存,以避免需要重新计算它们。

缓存嵌入可以使用CacheBackedEmbeddings.缓存支持的嵌入器是嵌入器的包装器,该嵌入器缓存 embeddings 存储在键值存储中。文本经过哈希处理,哈希值用作缓存中的键。

初始化CacheBackedEmbeddingsfrom_bytes_store.它采用以下参数:

  • underlying_embedder:用于嵌入的嵌入器。
  • document_embedding_cache:任意ByteStore用于缓存文档嵌入。
  • batch_size:(可选,默认为None) 要在存储更新之间嵌入的文档数。
  • namespace:(可选,默认为 )用于文档缓存的命名空间。此命名空间用于避免与其他缓存冲突。例如,将其设置为使用的嵌入模型的名称。""
  • query_embedding_cache:(可选,默认为None或不缓存)一个ByteStore用于缓存查询嵌入,或True使用与document_embedding_cache.

注意

  • 请务必设置namespace参数,以避免使用不同嵌入模型嵌入的相同文本发生冲突。
  • CacheBackedEmbeddings默认情况下,不缓存查询嵌入。要启用查询缓存,需要指定一个query_embedding_cache.
from langchain.embeddings import CacheBackedEmbeddings

与 Vector Store 一起使用

首先,让我们看一个使用本地文件系统存储嵌入并使用 FAISS 向量存储进行检索的示例。

%pip install --upgrade --quiet  langchain-openai faiss-cpu
from langchain.storage import LocalFileStore
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

underlying_embeddings = OpenAIEmbeddings()

store = LocalFileStore("./cache/")

cached_embedder = CacheBackedEmbeddings.from_bytes_store(
underlying_embeddings, store, namespace=underlying_embeddings.model
)

在嵌入之前,缓存是空的:

list(store.yield_keys())
[]

加载文档,将其拆分为块,嵌入每个块并将其加载到向量存储中。

raw_documents = TextLoader("state_of_the_union.txt").load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)

创建 vector store:

%%time
db = FAISS.from_documents(documents, cached_embedder)
CPU times: user 218 ms, sys: 29.7 ms, total: 248 ms
Wall time: 1.02 s

如果我们再次尝试创建 vector store,它会快得多,因为它不需要重新计算任何嵌入。

%%time
db2 = FAISS.from_documents(documents, cached_embedder)
CPU times: user 15.7 ms, sys: 2.22 ms, total: 18 ms
Wall time: 17.2 ms

下面是一些创建的嵌入:

list(store.yield_keys())[:5]
['text-embedding-ada-00217a6727d-8916-54eb-b196-ec9c9d6ca472',
'text-embedding-ada-0025fc0d904-bd80-52da-95c9-441015bfb438',
'text-embedding-ada-002e4ad20ef-dfaa-5916-9459-f90c6d8e8159',
'text-embedding-ada-002ed199159-c1cd-5597-9757-f80498e8f17b',
'text-embedding-ada-0021297d37a-2bc1-5e19-bf13-6c950f075062']

交换ByteStore

为了使用不同的ByteStore,只需在创建您的CacheBackedEmbeddings.下面,我们创建一个等效的 cached embeddings 对象,但使用非持久InMemoryByteStore相反:

from langchain.embeddings import CacheBackedEmbeddings
from langchain.storage import InMemoryByteStore

store = InMemoryByteStore()

cached_embedder = CacheBackedEmbeddings.from_bytes_store(
underlying_embeddings, store, namespace=underlying_embeddings.model
)