Rerank 模型#
SGLang 通过集成优化的服务框架和灵活的编程接口,为 rerank 模型提供全面支持。这种设置能够高效处理交叉编码器重排序任务,提高搜索结果排序的准确性和相关性。SGLang 的设计确保了在部署 reranker 模型时具有高吞吐量和低延迟,使其成为大规模检索系统中基于语义的结果精修的理想选择。
重要
这些模型通过 --is-embedding 参数运行,部分可能还需要 --trust-remote-code 参数
示例启动命令#
python3 -m sglang.launch_server \
--model-path BAAI/bge-reranker-v2-m3 \
--host 0.0.0.0 \
--disable-radix-cache \
--chunked-prefill-size -1 \
--attention-backend triton \
--is-embedding \
--port 30000
示例客户端请求#
import requests
url = "http://127.0.0.1:30000/v1/rerank"
payload = {
"model": "BAAI/bge-reranker-v2-m3",
"query": "什么是熊猫?",
"documents": [
"嗨",
"大熊猫(Ailuropoda melanoleuca),有时被称为熊猫熊或简称熊猫,是中国特有的熊科物种。"
]
}
response = requests.post(url, json=payload)
response_json = response.json()
for item in response_json:
print(f"分数: {item['score']:.2f} - 文档: '{item['document']}'")
支持的 rerank 模型#
模型系列 (Rerank) |
示例 HuggingFace 标识符 |
聊天模板 |
描述 |
|---|---|---|---|
BGE-Reranker (BgeRerankModel) |
|
N/A |
目前仅支持 |