Qwen2.5-Coder

ベースモデル
開発者
Alibaba Cloud / Qwen Team
ライセンス
Apache 2.0 (0.5B-32B except 3B), Qwen Research (3B)
リリース日
2024/11/12
コンテキスト長
131,072 トークン
トレーニングトークン
5.5T
対応言語
Python, JavaScript, TypeScript, Java, C++, C, Go, Rust, PHP, Ruby
ベースモデル
Qwen2.5
officialcoding

2024年11月12日公開。5.5兆トークン(70%コード、20%テキスト、10%数学)で学習したコード特化モデル。92言語のプログラミング言語をサポート。7B以上は128Kコンテキスト対応。HumanEval 92.7%、BigCodeBench・LiveCodeBenchでSOTA達成。

ベンチマーク

HumanEval
92.7
humaneval-plus
87.6
mbpp
90
aider
73.7
mceval
65.9

ソース: Qwen2.5-Coder Technical Report (arXiv:2409.12186)

技術仕様

アーキテクチャ

Transformer, RoPE, SwiGLU, RMSNorm, GQA with QKV bias

プロンプトテンプレート

フォーマット: chatml
システムプロンプト:
<|im_start|>system
{system}<|im_end|>
ユーザープロンプト:
<|im_start|>user
{prompt}<|im_end|>
アシスタントプロンプト:
<|im_start|>assistant
ストップトークン:
<|im_end|><|endoftext|>

パラメータバリエーション

Qwen2.5-Coder 0.5B(0.5B)

HuggingFace

最軽量版。32Kコンテキスト。

VRAM1.5GB

GGUFファイルは登録されていません

Qwen2.5-Coder 1.5B(1.5B)

HuggingFace

軽量版。32Kコンテキスト。

VRAM4GB

GGUFファイルは登録されていません

Qwen2.5-Coder 3B(3B)

HuggingFace

コンパクト版。32Kコンテキスト。

VRAM7GB

GGUFファイルは登録されていません

Qwen2.5-Coder 7B(7B)

HuggingFace

標準版。128Kコンテキスト。

VRAM17GB

GGUFファイルは登録されていません

Qwen2.5-Coder 14B(14B)

HuggingFace

中型版。128Kコンテキスト。

VRAM32GB

GGUFファイルは登録されていません

Qwen2.5-Coder 32B(32B)

HuggingFace

フラッグシップ版。128Kコンテキスト。HumanEval 92.7%。

VRAM70GB

GGUFファイルは登録されていません

家系図

現在のモデル: Qwen2.5-Coder