大型语言模型#
这些模型接受文本输入并生成文本输出(例如,聊天补全)。它们主要是大型语言模型(LLMs),其中一些采用专家混合(MoE)架构以实现扩展。
示例启动命令#
python3 -m sglang.launch_server \
--model-path meta-llama/Llama-3.2-1B-Instruct \ # 示例 HF/本地路径
--host 0.0.0.0 \
--port 30000 \
支持的模型#
下表总结了支持的模型。
如果您不确定是否实现了特定架构,可以通过 GitHub 搜索它。例如,要搜索 Qwen3ForCausalLM,请使用以下表达式:
repo:sgl-project/sglang path:/^python\/sglang\/srt\/models\// Qwen3ForCausalLM
在 GitHub 搜索栏中。
模型系列(变体) |
示例 HuggingFace 标识符 |
描述 |
|---|---|---|
DeepSeek (v1, v2, v3/R1) |
|
通过强化学习训练的一系列高级推理优化模型(包括671B MoE);在复杂推理、数学和代码任务上表现优异。SGLang 提供 Deepseek v3/R1 模型特定优化和推理解析器 |
GPT-OSS |
|
OpenAI 最新的 GPT-OSS 系列,用于复杂推理、智能体任务和多功能的开发者用例。 |
Qwen (3, 3MoE, 3Next, 2.5, 2系列) |
|
阿里巴巴最新的 Qwen3 系列,用于复杂推理、语言理解和生成任务;支持 MoE 变体以及前代 2.5、2 等。SGLang 提供 Qwen3 特定推理解析器 |
Llama (2, 3.x, 4系列) |
|
Meta 的开源 LLM 系列,参数范围从 7B 到 400B(Llama 2、3 和新的 Llama 4),性能受到广泛认可。SGLang 提供 Llama-4 模型特定优化 |
Mistral (Mixtral, NeMo, Small3) |
|
Mistral AI 开发的开源 7B LLM,性能强劲;扩展为 MoE("Mixtral")和 NeMo Megatron 变体以支持更大规模。 |
Gemma (v1, v2, v3) |
|
Google 的高效多语言模型系列(1B-27B);Gemma 3 提供 128K 上下文窗口,其较大版本(4B+)支持视觉输入。 |
Phi (Phi-1.5, Phi-2, Phi-3, Phi-4, Phi-MoE系列) |
|
Microsoft 的 Phi 小模型系列(1.3B-5.6B);Phi-4-multimodal (5.6B) 处理文本、图像和语音,Phi-4-mini 是高精度文本模型,Phi-3.5-MoE 是专家混合模型。 |
MiniCPM (v3, 4B) |
|
OpenBMB 的边缘设备紧凑型 LLM 系列;MiniCPM 3 (4B) 在文本任务中达到 GPT-3.5 级别结果。 |
OLMo (2, 3) |
|
Allen AI 的开放语言模型系列,旨在促进语言模型科学。 |
OLMoE(开放 MoE) |
|
Allen AI 的开放专家混合模型(总计 7B,1B 活跃参数),通过稀疏专家激活提供最先进的结果。 |
MiniMax-M2 |
|
MiniMax 用于编码和智能体工作流程的最先进 LLM。 |
StableLM (3B, 7B) |
|
StabilityAI 早期的开源 LLM(3B 和 7B),用于通用文本生成;具有基本指令遵循能力的演示模型。 |
Command-R (Cohere) |
|
Cohere 的开放对话 LLM(Command 系列),针对长上下文、检索增强生成和工具使用进行了优化。 |
DBRX (Databricks) |
|
Databricks 的 132B 参数 MoE 模型(36B 活跃),在 12T token 上训练;作为完全开放的基础模型,与 GPT-3.5 质量相当。 |
Grok (xAI) |
|
xAI 的 grok-1 模型以巨大规模(314B 参数)和高品质著称;已在 SGLang 中集成以实现高性能推理。 |
ChatGLM (GLM-130B 系列) |
|
智谱 AI 的双语聊天模型(6B),在中英对话方面表现优异;针对对话质量和对齐进行了微调。 |
InternLM 2 (7B, 20B) |
|
商汤科技的新一代 InternLM(7B 和 20B),提供强大的推理能力和超长上下文支持(最高 200K token)。 |
ExaONE 3 (韩英) |
|
LG AI Research 的韩英模型(7.8B),在 8T token 上训练;提供高质量的双语理解和生成。 |
Baichuan 2 (7B, 13B) |
|
百川 AI 的第二代中英 LLM(7B/13B),性能提升,采用开放商业许可证。 |
XVERSE (MoE) |
|
元象的开源 MoE LLM(XVERSE-MoE-A36B:总计 255B,36B 活跃),支持约 40 种语言;通过专家路由提供 100B+ 密集级性能。 |
SmolLM (135M–1.7B) |
|
Hugging Face 的超小 LLM 系列(135M–1.7B 参数),提供令人惊讶的强大结果,使移动/边缘设备上的高级 AI 成为可能。 |
GLM-4 (多语言 9B) |
|
智谱的 GLM-4 系列(最高 9B 参数)——开放多语言模型,支持 1M token 上下文,甚至有 5.6B 多模态变体(Phi-4V)。 |
MiMo (7B 系列) |
|
小米的推理优化模型系列,利用多标记预测实现更快的推理。 |
ERNIE-4.5 (4.5, 4.5MoE 系列) |
|
百度的 ERNIE-4.5 系列,包含 MoE,有 47B 和 3B 活跃参数,最大模型总计 424B 参数,以及一个 0.3B 密集模型。 |
Arcee AFM-4.5B |
|
Arcee 的基础模型系列,用于现实世界可靠性和边缘部署。 |
Persimmon (8B) |
|
Adept 的开源 8B 模型,具有 16K 上下文窗口和快速推理;为广泛可用性而训练,采用 Apache 2.0 许可证。 |
Solar (10.7B) |
|
Upstage 的 10.7B 参数模型,针对指令遵循任务进行了优化。该架构采用深度扩展方法,提高模型性能。 |
Tele FLM (52B-1T) |
|
BAAI & TeleAI 的多语言模型,有 520 亿和 1 万亿参数变体。它是一个仅解码器的 transformer,在约 2T token 上训练 |
Ling (16.8B–290B) |
|
InclusionAI 的开放 MoE 模型。Ling-Lite 有 16.8B 总计/2.75B 活跃参数,Ling-Plus 有 290B 总计/28.8B 活跃参数。它们专为 NLP 和复杂推理任务上的高性能而设计。 |
Granite 3.0, 3.1 (IBM) |
|
IBM 的开放密集基础模型,针对推理、代码和商业 AI 用例进行了优化。与 Red Hat 和 watsonx 系统集成。 |
Granite 3.0 MoE (IBM) |
|
IBM 的专家混合模型,在提高成本效益的同时提供强大性能。MoE 专家路由专为大规模企业部署而设计。 |
Orion (14B) |
|
OrionStarAI 的一系列开源多语言大语言模型,在包含中文、英文、日文、韩文等的多语言语料库上进行了 2.5T token 的预训练,在这些语言中表现出卓越性能。 |
Llama Nemotron Super (v1, v1.5, NVIDIA) |
|
NVIDIA Nemotron 多模态模型系列提供最先进的推理模型,专为就绪的企业 AI 代理而设计。 |
Llama Nemotron Ultra (v1, NVIDIA) |
|
NVIDIA Nemotron 多模态模型系列提供最先进的推理模型,专为就绪的企业 AI 代理而设计。 |
NVIDIA Nemotron Nano 2.0 |
|
NVIDIA Nemotron 多模态模型系列提供最先进的推理模型,专为就绪的企业 AI 代理而设计。 |
StarCoder2 (3B-15B) |
|
StarCoder2 是专注于代码生成和理解的开源大语言模型(LLM)系列。它是 StarCoder 的继承者,由 BigCode 项目(Hugging Face、ServiceNow Research 和其他贡献者之间的合作)联合开发。 |
Jet-Nemotron |
|
Jet-Nemotron 是一种新的混合架构语言模型系列,超越最先进的开源全注意力语言模型,同时实现显著的效率提升。 |