DeepSeekMoE

ベースモデル
開発者
DeepSeek AI
ライセンス
DeepSeek Model License
リリース日
2024/1/11
コンテキスト長
4,096 トークン
知識カットオフ
2024-Q1
officialtext-generationmoeefficient

DeepSeek AIのMixture-of-Experts(MoE)アーキテクチャ実証モデル。2024年1月11日公開。細粒度エキスパート分割と共有エキスパート分離という革新的技術を導入。16Bの総パラメータで27億のみ活性化し、7B Denseモデルに匹敵する性能を実現。後のV2、V3シリーズの基盤となるアーキテクチャ。

技術仕様

アーキテクチャ

Sparse MoE, Fine-grained expert segmentation, Shared expert isolation, Always-active shared experts + routed experts, Reduced knowledge redundancy

パラメータバリエーション

DeepSeekMoE 16B(16B)

HuggingFace

16B総パラメータ、27億活性化。7B Denseモデル相当の性能を27億の活性化パラメータで実現。

MoEアクティブパラメータ: 2.7B
VRAM35GB

GGUFファイルは登録されていません

DeepSeekMoE 16B Chat(16B)

HuggingFace

16B MoE対話チューニング版。

MoEアクティブパラメータ: 2.7B
VRAM35GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeekMoE