DeepSeek-V3

ベースモデル
開発者
DeepSeek AI
ライセンス
MIT
リリース日
2024/12/26
コンテキスト長
128,000 トークン
トレーニングトークン
14.8T
対応言語
en, zh
知識カットオフ
2024-Q4
ベースモデル
deepseek-v2
officialtext-generationmoemlafp8long-contextefficientopen-source

DeepSeek AIの第3世代MoE言語モデル。2024年12月26日公開。671B総パラメータ(+14B MTP)、37B活性化。14.8兆トークン学習、278.8万H800 GPUh(約600万ドル)という低コストで主要プロプライエタリモデル匹敵の性能。補助損失なしロードバランシング、Multi-Token Prediction(MTP)、FP8混合精度学習を導入。MITライセンスでオープンソース化。

ベンチマーク

MMLU
88.5
MMLU-Pro
75.9
MATH
90.2
GPQA
59.1
math-500
90.2
codeforces-percentile
51.6
swe-bench-verified
42

ソース: https://arxiv.org/abs/2412.19437

技術仕様

アーキテクチャ

MoE, MLA (Multi-head Latent Attention), Auxiliary-loss-free load balancing, Multi-Token Prediction (MTP), FP8 mixed precision training, 256 routed experts + 1 shared expert per layer, 8 experts activated per token

プロンプトテンプレート

フォーマット: deepseek-v3
ユーザープロンプト:
<|User|>{user_message}
アシスタントプロンプト:
<|Assistant|>{assistant_response}<|end▁of▁sentence|>
ストップトークン:
<|end▁of▁sentence|>

パラメータバリエーション

DeepSeek-V3-Base(671B)

HuggingFace

671B総パラメータ、37B活性化のベースモデル。FP8ネイティブ対応。

MoEアクティブパラメータ: 37B
VRAM1.4TB

GGUFファイルは登録されていません

DeepSeek-V3(671B)

HuggingFace

671B対話チューニング版。MMLU 88.5%、MATH-500 90.2%達成。

MoEアクティブパラメータ: 37B
VRAM1.4TB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-V3