DeepSeekMoE
ベースモデルofficialtext-generationmoeefficient
DeepSeek AIのMixture-of-Experts(MoE)アーキテクチャ実証モデル。2024年1月11日公開。細粒度エキスパート分割と共有エキスパート分離という革新的技術を導入。16Bの総パラメータで27億のみ活性化し、7B Denseモデルに匹敵する性能を実現。後のV2、V3シリーズの基盤となるアーキテクチャ。
技術仕様
アーキテクチャ
Sparse MoE, Fine-grained expert segmentation, Shared expert isolation, Always-active shared experts + routed experts, Reduced knowledge redundancy
パラメータバリエーション
DeepSeekMoE 16B(16B)
HuggingFace16B総パラメータ、27億活性化。7B Denseモデル相当の性能を27億の活性化パラメータで実現。
MoEアクティブパラメータ: 2.7B
VRAM35GB
GGUFファイルは登録されていません
関連モデル
DeepSeek-LLM
4 バリエーション
DeepSeek-Coder
7 バリエーション
DeepSeek-Math
3 バリエーション
DeepSeek-VL
2 バリエーション
DeepSeek-V2
4 バリエーション
DeepSeek-Coder-V2
4 バリエーション
DeepSeek-Prover
1 バリエーション
DeepSeek-V2.5
1 バリエーション
DeepSeek-V3
2 バリエーション
DeepSeek-VL2
3 バリエーション
DeepSeek-R1
8 バリエーション
Janus
3 バリエーション
DeepSeek-R1-0528
1 バリエーション
DeepSeek-V3.1
1 バリエーション
DeepSeek-Prover-V2
2 バリエーション
DeepSeekMath-V2
1 バリエーション
DeepSeek-V3.2
1 バリエーション
家系図
現在のモデル: DeepSeekMoE