Qwen3-Next 使用指南#

SGLang 自 此 PR 起已支持 Qwen3-Next-80B-A3B-Instruct 和 Qwen3-Next-80B-A3B-Thinking 模型。

使用 SGLang 启动 Qwen3-Next#

在 4xH100/H200 GPU 上提供 Qwen3-Next 模型服务:

python3 -m sglang.launch_server --model Qwen/Qwen3-Next-80B-A3B-Instruct --tp 4

配置提示#

  • --max-mamba-cache-size:调整 --max-mamba-cache-size 以增加 mamba 缓存空间和最大运行请求数量。作为权衡,这会减少 KV 缓存空间。您可以根据工作负载进行调整。

  • --mamba-ssm-dtypebfloat16float32,使用 bfloat16 可节省 mamba 缓存大小,使用 float32 可获得更准确的结果。默认设置为 float32

EAGLE 推理解码#

说明:SGLang 已支持带有 EAGLE 推理解码 的 Qwen3-Next 模型。

使用方法: 添加参数 --speculative-algorithm--speculative-num-steps--speculative-eagle-topk--speculative-num-draft-tokens 以启用此功能。例如:

python3 -m sglang.launch_server \
  --model Qwen/Qwen3-Next-80B-A3B-Instruct \
  --tp 4 \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --speculative-algo NEXTN

详细信息可查看 此 PR