大型语言模型

大型语言模型#

这些模型接受文本输入并生成文本输出(例如,聊天补全)。它们主要是大型语言模型(LLMs),其中一些采用专家混合(MoE)架构以实现扩展。

示例启动命令#

python3 -m sglang.launch_server \
  --model-path meta-llama/Llama-3.2-1B-Instruct \  # 示例 HF/本地路径
  --host 0.0.0.0 \
  --port 30000 \

支持的模型#

下表总结了支持的模型。

如果您不确定是否实现了特定架构,可以通过 GitHub 搜索它。例如,要搜索 Qwen3ForCausalLM,请使用以下表达式:

repo:sgl-project/sglang path:/^python\/sglang\/srt\/models\// Qwen3ForCausalLM

在 GitHub 搜索栏中。

模型系列(变体)

示例 HuggingFace 标识符

描述

DeepSeek (v1, v2, v3/R1)

deepseek-ai/DeepSeek-R1

通过强化学习训练的一系列高级推理优化模型(包括671B MoE);在复杂推理、数学和代码任务上表现优异。SGLang 提供 Deepseek v3/R1 模型特定优化推理解析器

GPT-OSS

openai/gpt-oss-20b, openai/gpt-oss-120b

OpenAI 最新的 GPT-OSS 系列,用于复杂推理、智能体任务和多功能的开发者用例。

Qwen (3, 3MoE, 3Next, 2.5, 2系列)

Qwen/Qwen3-0.6B, Qwen/Qwen3-30B-A3B Qwen/Qwen3-Next-80B-A3B-Instruct

阿里巴巴最新的 Qwen3 系列,用于复杂推理、语言理解和生成任务;支持 MoE 变体以及前代 2.5、2 等。SGLang 提供 Qwen3 特定推理解析器

Llama (2, 3.x, 4系列)

meta-llama/Llama-4-Scout-17B-16E-Instruct

Meta 的开源 LLM 系列,参数范围从 7B 到 400B(Llama 2、3 和新的 Llama 4),性能受到广泛认可。SGLang 提供 Llama-4 模型特定优化

Mistral (Mixtral, NeMo, Small3)

mistralai/Mistral-7B-Instruct-v0.2

Mistral AI 开发的开源 7B LLM,性能强劲;扩展为 MoE("Mixtral")和 NeMo Megatron 变体以支持更大规模。

Gemma (v1, v2, v3)

google/gemma-3-1b-it

Google 的高效多语言模型系列(1B-27B);Gemma 3 提供 128K 上下文窗口,其较大版本(4B+)支持视觉输入。

Phi (Phi-1.5, Phi-2, Phi-3, Phi-4, Phi-MoE系列)

microsoft/Phi-4-multimodal-instruct, microsoft/Phi-3.5-MoE-instruct

Microsoft 的 Phi 小模型系列(1.3B-5.6B);Phi-4-multimodal (5.6B) 处理文本、图像和语音,Phi-4-mini 是高精度文本模型,Phi-3.5-MoE 是专家混合模型。

MiniCPM (v3, 4B)

openbmb/MiniCPM3-4B

OpenBMB 的边缘设备紧凑型 LLM 系列;MiniCPM 3 (4B) 在文本任务中达到 GPT-3.5 级别结果。

OLMo (2, 3)

allenai/OLMo-2-1124-7B-Instruct

Allen AI 的开放语言模型系列,旨在促进语言模型科学。

OLMoE(开放 MoE)

allenai/OLMoE-1B-7B-0924

Allen AI 的开放专家混合模型(总计 7B,1B 活跃参数),通过稀疏专家激活提供最先进的结果。

MiniMax-M2

minimax/MiniMax-M2

MiniMax 用于编码和智能体工作流程的最先进 LLM。

StableLM (3B, 7B)

stabilityai/stablelm-tuned-alpha-7b

StabilityAI 早期的开源 LLM(3B 和 7B),用于通用文本生成;具有基本指令遵循能力的演示模型。

Command-R (Cohere)

CohereForAI/c4ai-command-r-v01

Cohere 的开放对话 LLM(Command 系列),针对长上下文、检索增强生成和工具使用进行了优化。

DBRX (Databricks)

databricks/dbrx-instruct

Databricks 的 132B 参数 MoE 模型(36B 活跃),在 12T token 上训练;作为完全开放的基础模型,与 GPT-3.5 质量相当。

Grok (xAI)

xai-org/grok-1

xAI 的 grok-1 模型以巨大规模(314B 参数)和高品质著称;已在 SGLang 中集成以实现高性能推理。

ChatGLM (GLM-130B 系列)

THUDM/chatglm2-6b

智谱 AI 的双语聊天模型(6B),在中英对话方面表现优异;针对对话质量和对齐进行了微调。

InternLM 2 (7B, 20B)

internlm/internlm2-7b

商汤科技的新一代 InternLM(7B 和 20B),提供强大的推理能力和超长上下文支持(最高 200K token)。

ExaONE 3 (韩英)

LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct

LG AI Research 的韩英模型(7.8B),在 8T token 上训练;提供高质量的双语理解和生成。

Baichuan 2 (7B, 13B)

baichuan-inc/Baichuan2-13B-Chat

百川 AI 的第二代中英 LLM(7B/13B),性能提升,采用开放商业许可证。

XVERSE (MoE)

xverse/XVERSE-MoE-A36B

元象的开源 MoE LLM(XVERSE-MoE-A36B:总计 255B,36B 活跃),支持约 40 种语言;通过专家路由提供 100B+ 密集级性能。

SmolLM (135M–1.7B)

HuggingFaceTB/SmolLM-1.7B

Hugging Face 的超小 LLM 系列(135M–1.7B 参数),提供令人惊讶的强大结果,使移动/边缘设备上的高级 AI 成为可能。

GLM-4 (多语言 9B)

ZhipuAI/glm-4-9b-chat

智谱的 GLM-4 系列(最高 9B 参数)——开放多语言模型,支持 1M token 上下文,甚至有 5.6B 多模态变体(Phi-4V)。

MiMo (7B 系列)

XiaomiMiMo/MiMo-7B-RL

小米的推理优化模型系列,利用多标记预测实现更快的推理。

ERNIE-4.5 (4.5, 4.5MoE 系列)

baidu/ERNIE-4.5-21B-A3B-PT

百度的 ERNIE-4.5 系列,包含 MoE,有 47B 和 3B 活跃参数,最大模型总计 424B 参数,以及一个 0.3B 密集模型。

Arcee AFM-4.5B

arcee-ai/AFM-4.5B-Base

Arcee 的基础模型系列,用于现实世界可靠性和边缘部署。

Persimmon (8B)

adept/persimmon-8b-chat

Adept 的开源 8B 模型,具有 16K 上下文窗口和快速推理;为广泛可用性而训练,采用 Apache 2.0 许可证。

Solar (10.7B)

upstage/SOLAR-10.7B-Instruct-v1.0

Upstage 的 10.7B 参数模型,针对指令遵循任务进行了优化。该架构采用深度扩展方法,提高模型性能。

Tele FLM (52B-1T)

CofeAI/Tele-FLM

BAAI & TeleAI 的多语言模型,有 520 亿和 1 万亿参数变体。它是一个仅解码器的 transformer,在约 2T token 上训练

Ling (16.8B–290B)

inclusionAI/Ling-lite, inclusionAI/Ling-plus

InclusionAI 的开放 MoE 模型。Ling-Lite 有 16.8B 总计/2.75B 活跃参数,Ling-Plus 有 290B 总计/28.8B 活跃参数。它们专为 NLP 和复杂推理任务上的高性能而设计。

Granite 3.0, 3.1 (IBM)

ibm-granite/granite-3.1-8b-instruct

IBM 的开放密集基础模型,针对推理、代码和商业 AI 用例进行了优化。与 Red Hat 和 watsonx 系统集成。

Granite 3.0 MoE (IBM)

ibm-granite/granite-3.0-3b-a800m-instruct

IBM 的专家混合模型,在提高成本效益的同时提供强大性能。MoE 专家路由专为大规模企业部署而设计。

Orion (14B)

OrionStarAI/Orion-14B-Base

OrionStarAI 的一系列开源多语言大语言模型,在包含中文、英文、日文、韩文等的多语言语料库上进行了 2.5T token 的预训练,在这些语言中表现出卓越性能。

Llama Nemotron Super (v1, v1.5, NVIDIA)

nvidia/Llama-3_3-Nemotron-Super-49B-v1, nvidia/Llama-3_3-Nemotron-Super-49B-v1_5

NVIDIA Nemotron 多模态模型系列提供最先进的推理模型,专为就绪的企业 AI 代理而设计。

Llama Nemotron Ultra (v1, NVIDIA)

nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

NVIDIA Nemotron 多模态模型系列提供最先进的推理模型,专为就绪的企业 AI 代理而设计。

NVIDIA Nemotron Nano 2.0

nvidia/NVIDIA-Nemotron-Nano-9B-v2

NVIDIA Nemotron 多模态模型系列提供最先进的推理模型,专为就绪的企业 AI 代理而设计。Nemotron-Nano-9B-v2 是一种混合 Mamba-Transformer 语言模型,旨在增加推理工作负载的吞吐量,同时与类似规模的模型相比实现最先进的准确性。

StarCoder2 (3B-15B)

bigcode/starcoder2-7b

StarCoder2 是专注于代码生成和理解的开源大语言模型(LLM)系列。它是 StarCoder 的继承者,由 BigCode 项目(Hugging Face、ServiceNow Research 和其他贡献者之间的合作)联合开发。

Jet-Nemotron

jet-ai/Jet-Nemotron-2B

Jet-Nemotron 是一种新的混合架构语言模型系列,超越最先进的开源全注意力语言模型,同时实现显著的效率提升。