Rerank 模型

目录

Rerank 模型#

SGLang 通过集成优化的服务框架和灵活的编程接口，为 rerank 模型提供全面支持。这种设置能够高效处理交叉编码器重排序任务，提高搜索结果排序的准确性和相关性。SGLang 的设计确保了在部署 reranker 模型时具有高吞吐量和低延迟，使其成为大规模检索系统中基于语义的结果精修的理想选择。

重要

这些模型通过 --is-embedding 参数运行，部分可能还需要 --trust-remote-code 参数

示例启动命令#

python3 -m sglang.launch_server \
  --model-path BAAI/bge-reranker-v2-m3 \
  --host 0.0.0.0 \
  --disable-radix-cache \
  --chunked-prefill-size -1 \
  --attention-backend triton \
  --is-embedding \
  --port 30000

示例客户端请求#

import requests

url = "http://127.0.0.1:30000/v1/rerank"

payload = {
    "model": "BAAI/bge-reranker-v2-m3",
    "query": "什么是熊猫？",
    "documents": [
        "嗨",
        "大熊猫（Ailuropoda melanoleuca），有时被称为熊猫熊或简称熊猫，是中国特有的熊科物种。"
    ]
}

response = requests.post(url, json=payload)
response_json = response.json()

for item in response_json:
    print(f"分数: {item['score']:.2f} - 文档: '{item['document']}'")

支持的 rerank 模型#

模型系列 (Rerank)	示例 HuggingFace 标识符	聊天模板	描述
BGE-Reranker (BgeRerankModel)	`BAAI/bge-reranker-v2-m3`	N/A	目前仅支持 `attention-backend` 为 `triton` 和 `torch_native`。来自 BAAI 的高性能交叉编码器 reranker 模型。适用于根据语义相关性对搜索结果进行重新排序。