DeepSeek-V2

ベースモデル
開発者
DeepSeek AI
ライセンス
DeepSeek Model License
リリース日
2024/5/6
コンテキスト長
128,000 トークン
トレーニングトークン
8.1T
対応言語
en, zh
知識カットオフ
2024-Q2
ベースモデル
deepseek-llm
officialtext-generationmoemlalong-contextefficientcommercial-use

DeepSeek AIの第2世代MoE言語モデル。2024年5月6日公開。革新的なMulti-head Latent Attention(MLA)でKVキャッシュを93.3%圧縮。128Kコンテキスト、8.1兆トークン学習。236Bモデルは210億活性化パラメータでDeepSeek-67B比5.76倍の生成スループット、学習コスト42.5%削減を実現。

ベンチマーク

mt-bench
8.97
alpacaeval-winrate
38.9
alignbench
7.91

ソース: https://arxiv.org/abs/2405.04434

技術仕様

アーキテクチャ

MoE, Multi-head Latent Attention (MLA), 93.3% KV cache compression, 2 shared experts + 160 routed experts per layer, 6 experts activated per token

パラメータバリエーション

DeepSeek-V2-Lite(16B)

HuggingFace

16B総パラメータ、24億活性化の軽量版。

MoEアクティブパラメータ: 2.4B
VRAM35GB

GGUFファイルは登録されていません

DeepSeek-V2-Lite-Chat(16B)

HuggingFace

Lite対話チューニング版。

MoEアクティブパラメータ: 2.4B
VRAM35GB

GGUFファイルは登録されていません

DeepSeek-V2(236B)

HuggingFace

236B総パラメータ、210億活性化のフラッグシップ。MLA+DeepSeekMoEで効率的な推論。

MoEアクティブパラメータ: 21B
VRAM500GB

GGUFファイルは登録されていません

DeepSeek-V2-Chat(236B)

HuggingFace

236B対話チューニング版。MT-Bench 8.97達成。

MoEアクティブパラメータ: 21B
VRAM500GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-V2