DeepSeek-V2

ベースモデル

開発者

DeepSeek AI

ライセンス

DeepSeek Model License

リリース日

2024/5/6

コンテキスト長

128,000 トークン

トレーニングトークン

8.1T

対応言語

en, zh

知識カットオフ

2024-Q2

ベースモデル

deepseek-llm

officialtext-generationmoemlalong-contextefficientcommercial-use

DeepSeek AIの第2世代MoE言語モデル。2024年5月6日公開。革新的なMulti-head Latent Attention（MLA）でKVキャッシュを93.3%圧縮。128Kコンテキスト、8.1兆トークン学習。236Bモデルは210億活性化パラメータでDeepSeek-67B比5.76倍の生成スループット、学習コスト42.5%削減を実現。

HuggingFace 論文 GitHub

ベンチマーク

mt-bench

8.97

alpacaeval-winrate

38.9

alignbench

7.91

ソース: https://arxiv.org/abs/2405.04434

技術仕様

アーキテクチャ

MoE, Multi-head Latent Attention (MLA), 93.3% KV cache compression, 2 shared experts + 160 routed experts per layer, 6 experts activated per token

パラメータバリエーション

DeepSeek-V2-Lite(16B)

HuggingFace

16B総パラメータ、24億活性化の軽量版。

MoEアクティブパラメータ: 2.4B

VRAM35GB

GGUFファイルは登録されていません

DeepSeek-V2-Lite-Chat(16B)

HuggingFace

Lite対話チューニング版。

MoEアクティブパラメータ: 2.4B

VRAM35GB

GGUFファイルは登録されていません

DeepSeek-V2(236B)

HuggingFace

236B総パラメータ、210億活性化のフラッグシップ。MLA＋DeepSeekMoEで効率的な推論。

MoEアクティブパラメータ: 21B

VRAM500GB

GGUFファイルは登録されていません

DeepSeek-V2-Chat(236B)

HuggingFace

236B対話チューニング版。MT-Bench 8.97達成。

MoEアクティブパラメータ: 21B

VRAM500GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-V2

ベース

FT

派生

表示中

DeepSeek-V2

ベンチマーク

技術仕様

アーキテクチャ

パラメータバリエーション

DeepSeek-V2-Lite(16B)

DeepSeek-V2-Lite-Chat(16B)

DeepSeek-V2(236B)

DeepSeek-V2-Chat(236B)

関連モデル

DeepSeek-LLM

DeepSeek-Coder

DeepSeekMoE

DeepSeek-Math

DeepSeek-VL

DeepSeek-Coder-V2

DeepSeek-Prover

DeepSeek-V2.5

DeepSeek-V3

DeepSeek-VL2

DeepSeek-R1

Janus

DeepSeek-R1-0528

DeepSeek-V3.1

DeepSeek-Prover-V2

DeepSeekMath-V2

DeepSeek-V3.2

家系図