DeepSeek-V2
ベースモデルofficialtext-generationmoemlalong-contextefficientcommercial-use
DeepSeek AIの第2世代MoE言語モデル。2024年5月6日公開。革新的なMulti-head Latent Attention(MLA)でKVキャッシュを93.3%圧縮。128Kコンテキスト、8.1兆トークン学習。236Bモデルは210億活性化パラメータでDeepSeek-67B比5.76倍の生成スループット、学習コスト42.5%削減を実現。
ベンチマーク
mt-bench
8.97
alpacaeval-winrate
38.9
alignbench
7.91
ソース: https://arxiv.org/abs/2405.04434
技術仕様
アーキテクチャ
MoE, Multi-head Latent Attention (MLA), 93.3% KV cache compression, 2 shared experts + 160 routed experts per layer, 6 experts activated per token
パラメータバリエーション
DeepSeek-V2(236B)
HuggingFace236B総パラメータ、210億活性化のフラッグシップ。MLA+DeepSeekMoEで効率的な推論。
MoEアクティブパラメータ: 21B
VRAM500GB
GGUFファイルは登録されていません
DeepSeek-V2-Chat(236B)
HuggingFace236B対話チューニング版。MT-Bench 8.97達成。
MoEアクティブパラメータ: 21B
VRAM500GB
GGUFファイルは登録されていません
関連モデル
DeepSeek-LLM
4 バリエーション
DeepSeek-Coder
7 バリエーション
DeepSeekMoE
2 バリエーション
DeepSeek-Math
3 バリエーション
DeepSeek-VL
2 バリエーション
DeepSeek-Coder-V2
4 バリエーション
DeepSeek-Prover
1 バリエーション
DeepSeek-V2.5
1 バリエーション
DeepSeek-V3
2 バリエーション
DeepSeek-VL2
3 バリエーション
DeepSeek-R1
8 バリエーション
Janus
3 バリエーション
DeepSeek-R1-0528
1 バリエーション
DeepSeek-V3.1
1 バリエーション
DeepSeek-Prover-V2
2 バリエーション
DeepSeekMath-V2
1 バリエーション
DeepSeek-V3.2
1 バリエーション
家系図
現在のモデル: DeepSeek-V2