DeepSeek-LLM

ベースモデル
開発者
DeepSeek AI
ライセンス
DeepSeek Model License
リリース日
2023/11/29
コンテキスト長
4,096 トークン
トレーニングトークン
2T
対応言語
en, zh
知識カットオフ
2023
officialtext-generationmultilingualcommercial-use

DeepSeek AIの初代LLM。2023年11月29日公開。LLaMAアーキテクチャを採用し、2兆トークン(英語+中国語)で学習。7Bと67Bの2サイズ展開。67BではGrouped-Query Attention(GQA)を採用し効率化。

ベンチマーク

MMLU
71.9
HumanEval
73.78
MATH
32.6
gsm8k
84.1

ソース: https://arxiv.org/abs/2401.02954

技術仕様

アーキテクチャ

LLaMA-style decoder-only Transformer, RoPE, RMSNorm pre-normalization, 7B: MHA, 67B: GQA, Vocab 102,400 (byte-level BPE)

プロンプトテンプレート

フォーマット: deepseek
ユーザープロンプト:
User: {user_message}

アシスタントプロンプト:
Assistant: {assistant_response}<|end▁of▁sentence|>
ストップトークン:
<|end▁of▁sentence|>

パラメータバリエーション

DeepSeek-LLM 7B Base(7B)

HuggingFace

7Bベースモデル。Multi-Head Attention(MHA)採用。

MoEアクティブパラメータ: 7B
VRAM17GB

GGUFファイルは登録されていません

DeepSeek-LLM 7B Chat(7B)

HuggingFace

7B対話チューニング版。

MoEアクティブパラメータ: 7B
VRAM17GB

GGUFファイルは登録されていません

DeepSeek-LLM 67B Base(67B)

HuggingFace

67Bベースモデル。Grouped-Query Attention(GQA)採用で効率的。MMLU 71.9%達成。

MoEアクティブパラメータ: 67B
VRAM135GB

GGUFファイルは登録されていません

DeepSeek-LLM 67B Chat(67B)

HuggingFace

67B対話チューニング版。HumanEval 73.78%、GSM8K 84.1%達成。

MoEアクティブパラメータ: 67B
VRAM135GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-LLM