奖励模型#
这些模型输出标量奖励分数或分类结果,常用于强化学习或内容审核任务。
重要
它们使用 --is-embedding 执行,有些可能需要 --trust-remote-code。
示例启动命令#
python3 -m sglang.launch_server \
--model-path Qwen/Qwen2.5-Math-RM-72B \ # 示例 HF/本地路径
--is-embedding \
--host 0.0.0.0 \
--tp-size=4 \ # 设置张量并行
--port 30000 \
支持的模型#
模型系列(奖励) |
示例 HuggingFace �识识符 |
描述 |
|---|---|---|
Llama(3.1 奖励 / |
|
基于 Llama 3.1 (8B) 的奖励模型(偏好分类器),用于为 RLHF 评分和排序回答。 |
Gemma 2(27B 奖励 / |
|
源自 Gemma-2 (27B),此模型为 RLHF 和多语言任务提供人类偏好评分。 |
InternLM 2(奖励 / |
|
基于 InternLM 2 (7B) 的奖励模型,在对齐流程中用于引导输出朝向首选行为。 |
Qwen2.5(奖励 - 数学 / |
|
来自 Qwen2.5 系列的 72B 数学专业 RLHF 奖励模型,针对评估和完善回答进行了微调。 |
Qwen2.5(奖励 - 序列 / |
|
用于序列分类的较小 Qwen2.5 变体,提供替代的 RLHF 评分机制。 |