Rerank 模型#

SGLang 通过集成优化的服务框架和灵活的编程接口,为 rerank 模型提供全面支持。这种设置能够高效处理交叉编码器重排序任务,提高搜索结果排序的准确性和相关性。SGLang 的设计确保了在部署 reranker 模型时具有高吞吐量和低延迟,使其成为大规模检索系统中基于语义的结果精修的理想选择。

重要

这些模型通过 --is-embedding 参数运行,部分可能还需要 --trust-remote-code 参数

示例启动命令#

python3 -m sglang.launch_server \
  --model-path BAAI/bge-reranker-v2-m3 \
  --host 0.0.0.0 \
  --disable-radix-cache \
  --chunked-prefill-size -1 \
  --attention-backend triton \
  --is-embedding \
  --port 30000

示例客户端请求#

import requests

url = "http://127.0.0.1:30000/v1/rerank"

payload = {
    "model": "BAAI/bge-reranker-v2-m3",
    "query": "什么是熊猫?",
    "documents": [
        "嗨",
        "大熊猫(Ailuropoda melanoleuca),有时被称为熊猫熊或简称熊猫,是中国特有的熊科物种。"
    ]
}

response = requests.post(url, json=payload)
response_json = response.json()

for item in response_json:
    print(f"分数: {item['score']:.2f} - 文档: '{item['document']}'")

支持的 rerank 模型#

模型系列 (Rerank)

示例 HuggingFace 标识符

聊天模板

描述

BGE-Reranker (BgeRerankModel)

BAAI/bge-reranker-v2-m3

N/A

目前仅支持 attention-backendtritontorch_native。来自 BAAI 的高性能交叉编码器 reranker 模型。适用于根据语义相关性对搜索结果进行重新排序。