Qwen2.5

ベースモデル

開発者

Alibaba Cloud / Qwen Team

ライセンス

Apache 2.0 (0.5B-32B), Qwen Research (3B), Qwen License (72B)

リリース日

2024/9/19

コンテキスト長

131,072 トークン

トレーニングトークン

18T

対応言語

zh, en, fr, es, pt, de, it, ru, ja, ko, vi, th, ar, id

知識カットオフ

2024-H1

officialmultilinguallong-contextcodingmath

2024年9月19日公開。18兆トークンで学習し、29言語以上に対応。7B以上は128Kコンテキストをサポート。YARN + Dual Chunk Attentionによる長文脈処理。コーディング・数学・指示追従能力が大幅に向上。Qwen2.5シリーズの基盤モデル。

HuggingFace 論文 GitHub 公式サイト

ベンチマーク

MMLU

86.1

MMLU-Pro

58.1

HumanEval

59.1

MATH

62.1

GPQA

45.9

IFEval

84.1

ソース: Qwen2.5 Technical Report (arXiv:2412.15115)

技術仕様

アーキテクチャ

Dense Decoder-only, GQA with QKV bias, RoPE, YARN + Dual Chunk Attention, SwiGLU, RMSNorm

プロンプトテンプレート

フォーマット: chatml

システムプロンプト:

<|im_start|>system
{system}<|im_end|>

ユーザープロンプト:

<|im_start|>user
{prompt}<|im_end|>

アシスタントプロンプト:

<|im_start|>assistant

ストップトークン:

<|im_end|><|endoftext|>

パラメータバリエーション

Qwen2.5 0.5B(0.5B)

HuggingFace

最軽量モデル。32Kコンテキスト。

VRAM1GB

GGUFファイルは登録されていません

Qwen2.5 1.5B(1.5B)

HuggingFace

軽量モデル。32Kコンテキスト。

VRAM4GB

GGUFファイルは登録されていません

Qwen2.5 3B(3B)

HuggingFace

コンパクトモデル。32Kコンテキスト。

VRAM7GB

GGUFファイルは登録されていません

Qwen2.5 7B(7B)

HuggingFace

標準サイズ。128Kコンテキストをサポート。

VRAM17GB

GGUFファイルは登録されていません

Qwen2.5 14B(14B)

HuggingFace

中型モデル。128Kコンテキスト。

VRAM32GB

GGUFファイルは登録されていません

Qwen2.5 32B(32B)

HuggingFace

大型モデル。128Kコンテキスト。

VRAM70GB

GGUFファイルは登録されていません

Qwen2.5 72B(72B)

HuggingFace

フラッグシップモデル。128Kコンテキスト。

VRAM150GB

GGUFファイルは登録されていません

家系図

現在のモデル: Qwen2.5

ベース

派生

表示中

Qwen2.5

ベンチマーク

技術仕様

アーキテクチャ

プロンプトテンプレート

パラメータバリエーション

Qwen2.5 0.5B(0.5B)

Qwen2.5 1.5B(1.5B)

Qwen2.5 3B(3B)

Qwen2.5 7B(7B)

Qwen2.5 14B(14B)

Qwen2.5 32B(32B)

Qwen2.5 72B(72B)

関連モデル

Qwen1.5

CodeQwen1.5

Qwen2

Qwen2.5-Coder

Qwen2.5-Math

Qwen2.5-VL

QwQ

Qwen3

Qwen3-Coder

Qwen3-Embedding

Qwen3-VL

Qwen3-Next

家系図