Qwen3-Next 使用指南#
SGLang 自 此 PR 起已支持 Qwen3-Next-80B-A3B-Instruct 和 Qwen3-Next-80B-A3B-Thinking 模型。
使用 SGLang 启动 Qwen3-Next#
在 4xH100/H200 GPU 上提供 Qwen3-Next 模型服务:
python3 -m sglang.launch_server --model Qwen/Qwen3-Next-80B-A3B-Instruct --tp 4
配置提示#
--max-mamba-cache-size:调整--max-mamba-cache-size以增加 mamba 缓存空间和最大运行请求数量。作为权衡,这会减少 KV 缓存空间。您可以根据工作负载进行调整。--mamba-ssm-dtype:bfloat16或float32,使用bfloat16可节省 mamba 缓存大小,使用float32可获得更准确的结果。默认设置为float32。
EAGLE 推理解码#
说明:SGLang 已支持带有 EAGLE 推理解码 的 Qwen3-Next 模型。
使用方法:
添加参数 --speculative-algorithm、--speculative-num-steps、--speculative-eagle-topk 和 --speculative-num-draft-tokens 以启用此功能。例如:
python3 -m sglang.launch_server \
--model Qwen/Qwen3-Next-80B-A3B-Instruct \
--tp 4 \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--speculative-algo NEXTN
详细信息可查看 此 PR。