SGLang 文档#
SGLang 是一个高性能的大语言模型和视觉-语言模型服务框架。 它旨在从单 GPU 到大型分布式集群等各类部署环境中提供低延迟、高吞吐量的推理服务。 其核心特性包括:
快速后端运行时:通过 RadixAttention 提供前缀缓存、零开销 CPU 调度器、预填充-解码分离、推测解码、连续批处理、分页注意力、张量/流水线/专家/数据并行、结构化输出、分块预填充、量化(FP4/FP8/INT4/AWQ/GPTQ)和多 LoRA 批处理等功能提供高效的推理服务。
广泛的模型支持:支持多种生成模型(Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等)、嵌入模型(e5-mistral、gte、mcdse)、奖励模型(Skywork)和扩散模型(WAN、Qwen-Image),并易于扩展集成新模型。兼容大多数 Hugging Face 模型和 OpenAI API。
广泛的硬件支持:可在 NVIDIA GPU(GB200/B300/H100/A100/Spark)、AMD GPU(MI355/MI300)、Intel Xeon CPU、Google TPU、Ascend NPU 等上运行。
灵活的前端语言:为编程 LLM 应用程序提供直观的接口,支持链式生成调用、高级提示、控制流、多模态输入、并行性和外部交互。
活跃的社区:SGLang 是开源的,拥有充满活力的社区支持,并在行业内广泛应用,全球支持超过 40 万个 GPU。
入门指南
高级功能