Skip to main content
Back to top
Ctrl
+
K
SGLang 中文网 sglang.org
入门指南
安装 SGLang
基本用法
发送请求
OpenAI 兼容的 API
OpenAI API - 补全功能
OpenAI API - 视觉功能
OpenAI API - 嵌入
离线引擎 API
SGLang 原生 API
采样参数
流行模型使用(DeepSeek、GPT-OSS、Llama、Qwen 等)
高级功能
服务器参数
超参数调优
注意力后端
推测解码
结构化输出
Structured Outputs For Reasoning Models
推理解析器
量化
LoRA 服务
PD 解耦
分层 KV 缓存 (HiCache)
查询视觉语言模型
SGLang 模型网关(前身为 SGLang 路由器)
确定性推理
可观测性
检查点引擎集成
支持的模型
大型语言模型
多模态语言模型
嵌入模型
奖励模型
Rerank 模型
如何支持新模型
SGLang 中的 Transformers 后备方案
使用 ModelScope 的模型
硬件平台
AMD GPU
CPU 服务器
TPU
NVIDIA Jetson Orin
Ascend NPUs
XPU
开发指南
贡献指南
使用 Docker 的开发指南
基准测试和性能分析
Bench Serving 使用指南
参考资源
故障排除和常见问题
环境变量
生产指标
生产环境请求追踪
多节点部署
自定义聊天模板
前端语言
了解更多并加入社区
OpenAI 兼容的 API
OpenAI 兼容的 API
#
OpenAI API - 补全功能
OpenAI API - 视觉功能
OpenAI API - 嵌入