DeepSeek-LLM
ベースモデルofficialtext-generationmultilingualcommercial-use
DeepSeek AIの初代LLM。2023年11月29日公開。LLaMAアーキテクチャを採用し、2兆トークン(英語+中国語)で学習。7Bと67Bの2サイズ展開。67BではGrouped-Query Attention(GQA)を採用し効率化。
ベンチマーク
MMLU
71.9
HumanEval
73.78
MATH
32.6
gsm8k
84.1
ソース: https://arxiv.org/abs/2401.02954
技術仕様
アーキテクチャ
LLaMA-style decoder-only Transformer, RoPE, RMSNorm pre-normalization, 7B: MHA, 67B: GQA, Vocab 102,400 (byte-level BPE)
プロンプトテンプレート
フォーマット: deepseek
ユーザープロンプト:
User: {user_message}
アシスタントプロンプト:
Assistant: {assistant_response}<|end▁of▁sentence|>ストップトークン:
<|end▁of▁sentence|>パラメータバリエーション
DeepSeek-LLM 7B Base(7B)
HuggingFace7Bベースモデル。Multi-Head Attention(MHA)採用。
MoEアクティブパラメータ: 7B
VRAM17GB
GGUFファイルは登録されていません
DeepSeek-LLM 67B Base(67B)
HuggingFace67Bベースモデル。Grouped-Query Attention(GQA)採用で効率的。MMLU 71.9%達成。
MoEアクティブパラメータ: 67B
VRAM135GB
GGUFファイルは登録されていません
DeepSeek-LLM 67B Chat(67B)
HuggingFace67B対話チューニング版。HumanEval 73.78%、GSM8K 84.1%達成。
MoEアクティブパラメータ: 67B
VRAM135GB
GGUFファイルは登録されていません
関連モデル
DeepSeek-Coder
7 バリエーション
DeepSeekMoE
2 バリエーション
DeepSeek-Math
3 バリエーション
DeepSeek-VL
2 バリエーション
DeepSeek-V2
4 バリエーション
DeepSeek-Coder-V2
4 バリエーション
DeepSeek-Prover
1 バリエーション
DeepSeek-V2.5
1 バリエーション
DeepSeek-V3
2 バリエーション
DeepSeek-VL2
3 バリエーション
DeepSeek-R1
8 バリエーション
Janus
3 バリエーション
DeepSeek-R1-0528
1 バリエーション
DeepSeek-V3.1
1 バリエーション
DeepSeek-Prover-V2
2 バリエーション
DeepSeekMath-V2
1 バリエーション
DeepSeek-V3.2
1 バリエーション
家系図
現在のモデル: DeepSeek-LLM