Qwen3

ベースモデル
開発者
Alibaba Cloud / Qwen Team
ライセンス
Apache 2.0
リリース日
2025/4/29
コンテキスト長
262,144 トークン
トレーニングトークン
36T
対応言語
en, zh, es, fr, de, ar, ru, ko, ja, th, vi, pt, it, hi, id
知識カットオフ
2025-Q1
officialmultilinguallong-contextmoe

2025年4月29日公開。36兆トークンで学習し、119言語に対応。256Kネイティブコンテキスト(1Mまで拡張可能)。GQA、QK LayerNorm、RoPE、SwiGLU、RMSNormを採用。Dense版(0.6B-32B)とMoE版(30B-A3B、235B-A22B)を提供。Thinkingモード(<think>タグ)による深い推論をサポート。

ベンチマーク

MMLU-Pro
83
GPQA
77.5
IFEval
88.7
mmlu-redux
93.1
evalplus
87.9

ソース: Qwen3 Technical Report (arXiv:2505.09388)

技術仕様

アーキテクチャ

Decoder-only Transformer, GQA, QK LayerNorm, RoPE, SwiGLU, RMSNorm

プロンプトテンプレート

フォーマット: chatml-thinking
システムプロンプト:
<|im_start|>system
{system}<|im_end|>
ユーザープロンプト:
<|im_start|>user
{prompt}<|im_end|>
アシスタントプロンプト:
<|im_start|>assistant
<think>
{thinking}</think>
{response}<|im_end|>
ストップトークン:
<|im_end|></s>

パラメータバリエーション

Qwen3 0.6B(0.6B)

HuggingFace

最軽量Dense版。32Kコンテキスト。

VRAM1.5GB

GGUFファイルは登録されていません

Qwen3 1.7B(1.7B)

HuggingFace

軽量Dense版。32Kコンテキスト。

VRAM4GB

GGUFファイルは登録されていません

Qwen3 4B(4B)

HuggingFace

コンパクトDense版。32Kコンテキスト。

VRAM8GB

GGUFファイルは登録されていません

Qwen3 8B(8B)

HuggingFace

標準Dense版。128Kコンテキスト。

VRAM16GB

GGUFファイルは登録されていません

Qwen3 14B(14B)

HuggingFace

中型Dense版。128Kコンテキスト。

VRAM28GB

GGUFファイルは登録されていません

Qwen3 32B(32B)

HuggingFace

大型Dense版。128Kコンテキスト。

VRAM65GB

GGUFファイルは登録されていません

Qwen3 30B-A3B (MoE)(30B/3B)

HuggingFace

軽量MoE版。3Bアクティブで高効率。

MoEアクティブパラメータ: 3B / 128 エキスパート数
VRAM60GB

GGUFファイルは登録されていません

Qwen3 235B-A22B (MoE)(235B/22B)

HuggingFace

フラッグシップMoE版。22Bアクティブで最高性能。

MoEアクティブパラメータ: 22B / 128 エキスパート数
VRAM470GB

GGUFファイルは登録されていません

家系図

現在のモデル: Qwen3