Qwen1.5
ベースモデルofficialmultilingual
2024年2月4日公開。Qwenシリーズの改良版で、GQA、SwiGLU、RMSNormを採用したDecoder-onlyアーキテクチャ。3兆トークンで学習し、32Kコンテキストをサポート。0.5Bから110Bまでの幅広いサイズラインナップとMoE版も提供。12言語に対応し、ChatML形式のプロンプトフォーマットを使用。
ベンチマーク
MMLU
77.5
HumanEval
41.5
MATH
34.1
gsm8k
79.5
c-eval
84.1
ソース: Qwen Blog 2024-02
技術仕様
アーキテクチャ
Decoder-only Transformer, GQA with QKV bias, RoPE, SwiGLU, RMSNorm
プロンプトテンプレート
フォーマット: chatml
システムプロンプト:
<|im_start|>system
{system}<|im_end|>ユーザープロンプト:
<|im_start|>user
{prompt}<|im_end|>アシスタントプロンプト:
<|im_start|>assistant
ストップトークン:
<|im_end|><|endoftext|>パラメータバリエーション
Qwen1.5 MoE-A2.7B(14.3B/2.7B)
HuggingFaceMixture of Experts版。高効率。
MoEアクティブパラメータ: 2.7B / 64 エキスパート数
VRAM28GB
GGUFファイルは登録されていません
関連モデル
家系図
現在のモデル: Qwen1.5