Qwen3-Next
ベースモデルofficialmultilinguallong-contextmoe
2025年9月10日公開。革新的なHybrid Transformer-Mambaアーキテクチャを採用。80Bパラメータながら3Bのみアクティブで高効率。256Kネイティブコンテキスト(1Mまで拡張可能)。Gated DeltaNet(線形アテンション)とHigh-Sparsity MoE(512エキスパート、10アクティブ)を組み合わせ、Multi-Token Prediction(MTP)も実装。
ベンチマーク
MMLU-Pro
80.6
GPQA
72.9
IFEval
87.6
mmlu-redux
90.9
livecodebnech-v6
56.6
arena-hard-v2
82.7
ruler-1m
80.3
ソース: Qwen3-Next HuggingFace Model Card
技術仕様
アーキテクチャ
Hybrid Transformer-Mamba, Gated DeltaNet, High-Sparsity MoE (512 experts), Multi-Token Prediction
プロンプトテンプレート
フォーマット: chatml-thinking
システムプロンプト:
<|im_start|>system
{system}<|im_end|>ユーザープロンプト:
<|im_start|>user
{prompt}<|im_end|>アシスタントプロンプト:
<|im_start|>assistant
<think>
{thinking}</think>
{response}<|im_end|>ストップトークン:
<|im_end|></s>パラメータバリエーション
Qwen3-Next 80B-A3B Base(80B/3B)
HuggingFaceベースモデル。Hybrid Transformer-Mamba。
MoEアクティブパラメータ: 3B / 512 エキスパート数
VRAM160GB
GGUFファイルは登録されていません
Qwen3-Next 80B-A3B Instruct(80B/3B)
HuggingFaceInstruct版。指示追従に最適化。
MoEアクティブパラメータ: 3B / 512 エキスパート数
VRAM160GB
GGUFファイルは登録されていません
Qwen3-Next 80B-A3B Thinking(80B/3B)
HuggingFaceThinking版。深い推論に最適化。
MoEアクティブパラメータ: 3B / 512 エキスパート数
VRAM160GB
GGUFファイルは登録されていません
Qwen3-Next 80B-A3B Instruct-FP8(80B/3B)
HuggingFaceFP8量子化版Instruct。VRAM削減。
MoEアクティブパラメータ: 3B / 512 エキスパート数
VRAM82GB
GGUFファイルは登録されていません
Qwen3-Next 80B-A3B Thinking-FP8(80B/3B)
HuggingFaceFP8量子化版Thinking。VRAM削減。
MoEアクティブパラメータ: 3B / 512 エキスパート数
VRAM82GB
GGUFファイルは登録されていません
関連モデル
家系図
現在のモデル: Qwen3-Next