DeepSeek-V3
ベースモデルofficialtext-generationmoemlafp8long-contextefficientopen-source
DeepSeek AIの第3世代MoE言語モデル。2024年12月26日公開。671B総パラメータ(+14B MTP)、37B活性化。14.8兆トークン学習、278.8万H800 GPUh(約600万ドル)という低コストで主要プロプライエタリモデル匹敵の性能。補助損失なしロードバランシング、Multi-Token Prediction(MTP)、FP8混合精度学習を導入。MITライセンスでオープンソース化。
ベンチマーク
MMLU
88.5
MMLU-Pro
75.9
MATH
90.2
GPQA
59.1
math-500
90.2
codeforces-percentile
51.6
swe-bench-verified
42
ソース: https://arxiv.org/abs/2412.19437
技術仕様
アーキテクチャ
MoE, MLA (Multi-head Latent Attention), Auxiliary-loss-free load balancing, Multi-Token Prediction (MTP), FP8 mixed precision training, 256 routed experts + 1 shared expert per layer, 8 experts activated per token
プロンプトテンプレート
フォーマット: deepseek-v3
ユーザープロンプト:
<|User|>{user_message}アシスタントプロンプト:
<|Assistant|>{assistant_response}<|end▁of▁sentence|>ストップトークン:
<|end▁of▁sentence|>パラメータバリエーション
DeepSeek-V3-Base(671B)
HuggingFace671B総パラメータ、37B活性化のベースモデル。FP8ネイティブ対応。
MoEアクティブパラメータ: 37B
VRAM1.4TB
GGUFファイルは登録されていません
DeepSeek-V3(671B)
HuggingFace671B対話チューニング版。MMLU 88.5%、MATH-500 90.2%達成。
MoEアクティブパラメータ: 37B
VRAM1.4TB
GGUFファイルは登録されていません
関連モデル
DeepSeek-LLM
4 バリエーション
DeepSeek-Coder
7 バリエーション
DeepSeekMoE
2 バリエーション
DeepSeek-Math
3 バリエーション
DeepSeek-VL
2 バリエーション
DeepSeek-V2
4 バリエーション
DeepSeek-Coder-V2
4 バリエーション
DeepSeek-Prover
1 バリエーション
DeepSeek-V2.5
1 バリエーション
DeepSeek-VL2
3 バリエーション
DeepSeek-R1
8 バリエーション
Janus
3 バリエーション
DeepSeek-R1-0528
1 バリエーション
DeepSeek-V3.1
1 バリエーション
DeepSeek-Prover-V2
2 バリエーション
DeepSeekMath-V2
1 バリエーション
DeepSeek-V3.2
1 バリエーション
家系図
現在のモデル: DeepSeek-V3