Qwen2

ベースモデル
開発者
Alibaba Cloud / Qwen Team
ライセンス
Apache 2.0 (0.5B-57B), Qwen License (72B)
リリース日
2024/6/7
コンテキスト長
131,072 トークン
トレーニングトークン
7T
対応言語
en, zh, es, fr, de, ar, ru, ko, ja, th, vi
知識カットオフ
2024-Q1
officialmultilinguallong-context

2024年6月7日公開。7兆トークンで学習し、約30言語に対応。7Bと72Bは128Kコンテキストをサポート(YaRN + Dual Chunk Attention)。GQA、RoPE、SwiGLU、RMSNormを採用したDecoder-onlyアーキテクチャ。MoE版(57B-A14B)も提供。

ベンチマーク

MMLU
84.2
MMLU-Pro
55.6
HumanEval
64.6
MATH
51.1
GPQA
37.9
IFEval
77.6

ソース: Qwen2 Technical Report (arXiv:2407.10671)

技術仕様

アーキテクチャ

Decoder-only, GQA, RoPE with YARN, Dual Chunk Attention, SwiGLU, RMSNorm

プロンプトテンプレート

フォーマット: chatml
システムプロンプト:
<|im_start|>system
{system}<|im_end|>
ユーザープロンプト:
<|im_start|>user
{prompt}<|im_end|>
アシスタントプロンプト:
<|im_start|>assistant
ストップトークン:
<|im_end|><|endoftext|>

パラメータバリエーション

Qwen2 0.5B(0.5B)

HuggingFace

最軽量モデル。32Kコンテキスト、12兆トークン学習。

VRAM1.5GB

GGUFファイルは登録されていません

Qwen2 1.5B(1.5B)

HuggingFace

軽量モデル。32Kコンテキスト。

VRAM4GB

GGUFファイルは登録されていません

Qwen2 7B(7B)

HuggingFace

標準サイズ。128Kコンテキストをサポート。

VRAM17GB

GGUFファイルは登録されていません

Qwen2 72B(72B)

HuggingFace

フラッグシップモデル。128Kコンテキスト。

VRAM150GB

GGUFファイルは登録されていません

Qwen2 57B-A14B (MoE)(57B/14B)

HuggingFace

Mixture of Experts版。14Bアクティブパラメータで高効率。

MoEアクティブパラメータ: 14B / 64 エキスパート数
VRAM120GB

GGUFファイルは登録されていません

家系図

現在のモデル: Qwen2