Qwen2.5
ベースモデルofficialmultilinguallong-contextcodingmath
2024年9月19日公開。18兆トークンで学習し、29言語以上に対応。7B以上は128Kコンテキストをサポート。YARN + Dual Chunk Attentionによる長文脈処理。コーディング・数学・指示追従能力が大幅に向上。Qwen2.5シリーズの基盤モデル。
ベンチマーク
MMLU
86.1
MMLU-Pro
58.1
HumanEval
59.1
MATH
62.1
GPQA
45.9
IFEval
84.1
ソース: Qwen2.5 Technical Report (arXiv:2412.15115)
技術仕様
アーキテクチャ
Dense Decoder-only, GQA with QKV bias, RoPE, YARN + Dual Chunk Attention, SwiGLU, RMSNorm
プロンプトテンプレート
フォーマット: chatml
システムプロンプト:
<|im_start|>system
{system}<|im_end|>ユーザープロンプト:
<|im_start|>user
{prompt}<|im_end|>アシスタントプロンプト:
<|im_start|>assistant
ストップトークン:
<|im_end|><|endoftext|>パラメータバリエーション
関連モデル
家系図
現在のモデル: Qwen2.5