DeepSeek-LLM

ベースモデル

開発者

DeepSeek AI

ライセンス

DeepSeek Model License

リリース日

2023/11/29

コンテキスト長

4,096 トークン

トレーニングトークン

2T

対応言語

en, zh

知識カットオフ

2023

officialtext-generationmultilingualcommercial-use

DeepSeek AIの初代LLM。2023年11月29日公開。LLaMAアーキテクチャを採用し、2兆トークン（英語＋中国語）で学習。7Bと67Bの2サイズ展開。67BではGrouped-Query Attention（GQA）を採用し効率化。

HuggingFace 論文 GitHub

ベンチマーク

MMLU

71.9

HumanEval

73.78

MATH

32.6

gsm8k

84.1

ソース: https://arxiv.org/abs/2401.02954

技術仕様

アーキテクチャ

LLaMA-style decoder-only Transformer, RoPE, RMSNorm pre-normalization, 7B: MHA, 67B: GQA, Vocab 102,400 (byte-level BPE)

プロンプトテンプレート

フォーマット: deepseek

ユーザープロンプト:

User: {user_message}

アシスタントプロンプト:

Assistant: {assistant_response}<｜end▁of▁sentence｜>

ストップトークン:

<｜end▁of▁sentence｜>

パラメータバリエーション

DeepSeek-LLM 7B Base(7B)

HuggingFace

7Bベースモデル。Multi-Head Attention（MHA）採用。

MoEアクティブパラメータ: 7B

VRAM17GB

GGUFファイルは登録されていません

DeepSeek-LLM 7B Chat(7B)

HuggingFace

7B対話チューニング版。

MoEアクティブパラメータ: 7B

VRAM17GB

GGUFファイルは登録されていません

DeepSeek-LLM 67B Base(67B)

HuggingFace

67Bベースモデル。Grouped-Query Attention（GQA）採用で効率的。MMLU 71.9%達成。

MoEアクティブパラメータ: 67B

VRAM135GB

GGUFファイルは登録されていません

DeepSeek-LLM 67B Chat(67B)

HuggingFace

67B対話チューニング版。HumanEval 73.78%、GSM8K 84.1%達成。

MoEアクティブパラメータ: 67B

VRAM135GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-LLM

ベース

FT

派生

表示中

DeepSeek-LLM

ベンチマーク

技術仕様

アーキテクチャ

プロンプトテンプレート

パラメータバリエーション

DeepSeek-LLM 7B Base(7B)

DeepSeek-LLM 7B Chat(7B)

DeepSeek-LLM 67B Base(67B)

DeepSeek-LLM 67B Chat(67B)

関連モデル

DeepSeek-Coder

DeepSeekMoE

DeepSeek-Math

DeepSeek-VL

DeepSeek-V2

DeepSeek-Coder-V2

DeepSeek-Prover

DeepSeek-V2.5

DeepSeek-V3

DeepSeek-VL2

DeepSeek-R1

Janus

DeepSeek-R1-0528

DeepSeek-V3.1

DeepSeek-Prover-V2

DeepSeekMath-V2

DeepSeek-V3.2

家系図