NVIDIA Jetson Orin#
前提条件#
开始前,请确保满足以下条件:
已设置好 NVIDIA Jetson AGX Orin 开发套件,并安装了 JetPack 6.1 或更高版本。
已安装 CUDA Toolkit 和 cuDNN。
验证 Jetson AGX Orin 是否处于高性能模式:
sudo nvpmodel -m 0
使用 Jetson Containers 安装和运行 SGLang#
克隆 jetson-containers github 仓库:
git clone https://github.com/dusty-nv/jetson-containers.git
运行安装脚本:
bash jetson-containers/install.sh
构建容器镜像:
jetson-containers build sglang
运行容器:
jetson-containers run $(autotag sglang)
或者您也可以使用以下命令手动运行容器:
docker run --runtime nvidia -it --rm --network=host IMAGE_NAME
运行推理#
启动服务器:
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-R1-Distill-Llama-8B \
--device cuda \
--dtype half \
--attention-backend flashinfer \
--mem-fraction-static 0.8 \
--context-length 8192
由于 Nvidia jetson 套件 的计算资源有限,所以使用了量化处理和上下文长度限制(--dtype half --context-length 8192)。有关详细说明,请参阅 Server Arguments。
引擎启动后,请参考 Chat completions 测试可用性。
使用 TorchAO 运行量化#
TorchAO 是针对 NVIDIA Jetson Orin 的推荐选择。
python -m sglang.launch_server \
--model-path meta-llama/Meta-Llama-3.1-8B-Instruct \
--device cuda \
--dtype bfloat16 \
--attention-backend flashinfer \
--mem-fraction-static 0.8 \
--context-length 8192 \
--torchao-config int4wo-128
这将启用 TorchAO 的 int4 仅权重量化,分组大小为 128。使用 --torchao-config int4wo-128 也是为了提高内存效率。
使用 XGrammar 实现结构化输出#
请参考 SGLang doc structured output。
感谢 Nurgaliyev Shakhizat、Dustin Franklin 和 Johnny Núñez Cano 的支持。