NVIDIA Jetson Orin#

前提条件#

开始前，请确保满足以下条件：

已设置好 NVIDIA Jetson AGX Orin 开发套件，并安装了 JetPack 6.1 或更高版本。
已安装 CUDA Toolkit 和 cuDNN。
验证 Jetson AGX Orin 是否处于高性能模式：

sudo nvpmodel -m 0

使用 Jetson Containers 安装和运行 SGLang#

克隆 jetson-containers github 仓库：

git clone https://github.com/dusty-nv/jetson-containers.git

运行安装脚本：

bash jetson-containers/install.sh

构建容器镜像：

jetson-containers build sglang

运行容器：

jetson-containers run $(autotag sglang)

或者您也可以使用以下命令手动运行容器：

docker run --runtime nvidia -it --rm --network=host IMAGE_NAME

运行推理#

启动服务器：

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-R1-Distill-Llama-8B \
  --device cuda \
  --dtype half \
  --attention-backend flashinfer \
  --mem-fraction-static 0.8 \
  --context-length 8192

由于 Nvidia jetson 套件的计算资源有限，所以使用了量化处理和上下文长度限制（--dtype half --context-length 8192）。有关详细说明，请参阅 Server Arguments。

引擎启动后，请参考 Chat completions 测试可用性。

使用 TorchAO 运行量化#

TorchAO 是针对 NVIDIA Jetson Orin 的推荐选择。

python -m sglang.launch_server \
    --model-path meta-llama/Meta-Llama-3.1-8B-Instruct \
    --device cuda \
    --dtype bfloat16 \
    --attention-backend flashinfer \
    --mem-fraction-static 0.8 \
    --context-length 8192 \
    --torchao-config int4wo-128

这将启用 TorchAO 的 int4 仅权重量化，分组大小为 128。使用 --torchao-config int4wo-128 也是为了提高内存效率。

使用 XGrammar 实现结构化输出#

请参考 SGLang doc structured output。

感谢 Nurgaliyev Shakhizat、Dustin Franklin 和 Johnny Núñez Cano 的支持。

参考文献#

NVIDIA Jetson AGX Orin 文档

NVIDIA Jetson Orin

目录