Skip to main content
Open on GitHub

Xorbits Inference (Xinference)

此页面演示了如何使用Xinference 与LangChain结合使用。

Xinference 是一个强大且多功能的库,旨在为LLMs、语音识别模型以及多模态模型提供支持,即使在你的笔记本电脑上也是如此。 借助 Xorbits Inference,您可以轻松地部署并服务您自己的或最新的内置模型,只需一条命令即可。

安装与设置

Xinference 可通过 PyPI 用 pip 安装:

pip install "xinference[all]"

LLM

Xinference 支持各种兼容 GGML 的模型,包括 chatglm、baichuan、whisper、vicuna 和 orca。要查看内置模型,请运行命令:

xinference list --all

Wrapper for Xinference

您可以运行以下命令启动本地的Xinference实例:

xinference

您也可以在分布式集群中部署Xinference。为此,请先在一个运行它的服务器上启动一个Xinference调度器:

xinference-supervisor -H "${supervisor_host}"

然后,在其他每台你想运行它们的服务器上启动Xinference工作进程:

xinference-worker -e "http://${supervisor_host}:9997"

您可以运行以下命令启动本地的Xinference实例:

xinference

一旦Xinference运行,将可以通过CLI或Xinference客户端访问到一个用于模型管理的端点。

对于本地部署,端点将会是http://localhost:9997

对于集群部署,端点将是http://${supervisor_host}:9997。

然后,您需要启动一个模型。您可以指定模型名称和其他属性,包括model_size_in_billions和量化。您可以使用命令行界面(CLI)来完成此操作。例如,

xinference launch -n orca -s 3 -q q4_0

将返回一个模型唯一标识符。

示例用法:

from langchain_community.llms import Xinference

llm = Xinference(
server_url="http://0.0.0.0:9997",
model_uid = {model_uid} # replace model_uid with the model UID return from launching the model
)

llm(
prompt="Q: where can we visit in the capital of France? A:",
generate_config={"max_tokens": 1024, "stream": True},
)

API 参考:Xinference

用法

对于更多详细信息和示例,请参阅 xinference LLMs 的示例

嵌入

Xinference 也支持嵌入查询和文档。参见 xinference 嵌入示例 以获取更详细的演示。

Xinference LangChain 合作伙伴包安装

使用以下命令安装集成包:

pip install langchain-xinference

聊天模型

from langchain_xinference.chat_models import ChatXinference

LLM

from langchain_xinference.llms import Xinference