Qwen2.5

ベースモデル
開発者
Alibaba Cloud / Qwen Team
ライセンス
Apache 2.0 (0.5B-32B), Qwen Research (3B), Qwen License (72B)
リリース日
2024/9/19
コンテキスト長
131,072 トークン
トレーニングトークン
18T
対応言語
zh, en, fr, es, pt, de, it, ru, ja, ko, vi, th, ar, id
知識カットオフ
2024-H1
officialmultilinguallong-contextcodingmath

2024年9月19日公開。18兆トークンで学習し、29言語以上に対応。7B以上は128Kコンテキストをサポート。YARN + Dual Chunk Attentionによる長文脈処理。コーディング・数学・指示追従能力が大幅に向上。Qwen2.5シリーズの基盤モデル。

ベンチマーク

MMLU
86.1
MMLU-Pro
58.1
HumanEval
59.1
MATH
62.1
GPQA
45.9
IFEval
84.1

ソース: Qwen2.5 Technical Report (arXiv:2412.15115)

技術仕様

アーキテクチャ

Dense Decoder-only, GQA with QKV bias, RoPE, YARN + Dual Chunk Attention, SwiGLU, RMSNorm

プロンプトテンプレート

フォーマット: chatml
システムプロンプト:
<|im_start|>system
{system}<|im_end|>
ユーザープロンプト:
<|im_start|>user
{prompt}<|im_end|>
アシスタントプロンプト:
<|im_start|>assistant
ストップトークン:
<|im_end|><|endoftext|>

パラメータバリエーション

Qwen2.5 0.5B(0.5B)

HuggingFace

最軽量モデル。32Kコンテキスト。

VRAM1GB

GGUFファイルは登録されていません

Qwen2.5 1.5B(1.5B)

HuggingFace

軽量モデル。32Kコンテキスト。

VRAM4GB

GGUFファイルは登録されていません

Qwen2.5 3B(3B)

HuggingFace

コンパクトモデル。32Kコンテキスト。

VRAM7GB

GGUFファイルは登録されていません

Qwen2.5 7B(7B)

HuggingFace

標準サイズ。128Kコンテキストをサポート。

VRAM17GB

GGUFファイルは登録されていません

Qwen2.5 14B(14B)

HuggingFace

中型モデル。128Kコンテキスト。

VRAM32GB

GGUFファイルは登録されていません

Qwen2.5 32B(32B)

HuggingFace

大型モデル。128Kコンテキスト。

VRAM70GB

GGUFファイルは登録されていません

Qwen2.5 72B(72B)

HuggingFace

フラッグシップモデル。128Kコンテキスト。

VRAM150GB

GGUFファイルは登録されていません

家系図

現在のモデル: Qwen2.5