Qwen3
ベースモデルofficialmultilinguallong-contextmoe
2025年4月29日公開。36兆トークンで学習し、119言語に対応。256Kネイティブコンテキスト(1Mまで拡張可能)。GQA、QK LayerNorm、RoPE、SwiGLU、RMSNormを採用。Dense版(0.6B-32B)とMoE版(30B-A3B、235B-A22B)を提供。Thinkingモード(<think>タグ)による深い推論をサポート。
ベンチマーク
MMLU-Pro
83
GPQA
77.5
IFEval
88.7
mmlu-redux
93.1
evalplus
87.9
ソース: Qwen3 Technical Report (arXiv:2505.09388)
技術仕様
アーキテクチャ
Decoder-only Transformer, GQA, QK LayerNorm, RoPE, SwiGLU, RMSNorm
プロンプトテンプレート
フォーマット: chatml-thinking
システムプロンプト:
<|im_start|>system
{system}<|im_end|>ユーザープロンプト:
<|im_start|>user
{prompt}<|im_end|>アシスタントプロンプト:
<|im_start|>assistant
<think>
{thinking}</think>
{response}<|im_end|>ストップトークン:
<|im_end|></s>パラメータバリエーション
Qwen3 30B-A3B (MoE)(30B/3B)
HuggingFace軽量MoE版。3Bアクティブで高効率。
MoEアクティブパラメータ: 3B / 128 エキスパート数
VRAM60GB
GGUFファイルは登録されていません
Qwen3 235B-A22B (MoE)(235B/22B)
HuggingFaceフラッグシップMoE版。22Bアクティブで最高性能。
MoEアクティブパラメータ: 22B / 128 エキスパート数
VRAM470GB
GGUFファイルは登録されていません
関連モデル
家系図
現在のモデル: Qwen3