Qwen2
ベースモデルofficialmultilinguallong-context
2024年6月7日公開。7兆トークンで学習し、約30言語に対応。7Bと72Bは128Kコンテキストをサポート(YaRN + Dual Chunk Attention)。GQA、RoPE、SwiGLU、RMSNormを採用したDecoder-onlyアーキテクチャ。MoE版(57B-A14B)も提供。
ベンチマーク
MMLU
84.2
MMLU-Pro
55.6
HumanEval
64.6
MATH
51.1
GPQA
37.9
IFEval
77.6
ソース: Qwen2 Technical Report (arXiv:2407.10671)
技術仕様
アーキテクチャ
Decoder-only, GQA, RoPE with YARN, Dual Chunk Attention, SwiGLU, RMSNorm
プロンプトテンプレート
フォーマット: chatml
システムプロンプト:
<|im_start|>system
{system}<|im_end|>ユーザープロンプト:
<|im_start|>user
{prompt}<|im_end|>アシスタントプロンプト:
<|im_start|>assistant
ストップトークン:
<|im_end|><|endoftext|>パラメータバリエーション
Qwen2 57B-A14B (MoE)(57B/14B)
HuggingFaceMixture of Experts版。14Bアクティブパラメータで高効率。
MoEアクティブパラメータ: 14B / 64 エキスパート数
VRAM120GB
GGUFファイルは登録されていません
関連モデル
家系図
現在のモデル: Qwen2