DeepSeek-Coder

ベースモデル

開発者

DeepSeek AI

ライセンス

DeepSeek Model License

リリース日

2023/11/2

コンテキスト長

16,384 トークン

トレーニングトークン

2T

対応言語

en, code

知識カットオフ

2023

officialcode-generationfill-in-middlemultilingual-code

DeepSeek AIのコード特化LLM。2023年11月2日公開。2兆トークン（87%コード、13%自然言語）で学習。87プログラミング言語対応。Fill-in-the-Middle（FIM）学習でコード補完に対応。16Kコンテキスト。

HuggingFace 論文 GitHub

ベンチマーク

HumanEval

56.1

mbpp

70.1

humaneval-instruct-33b

78.7

ソース: https://arxiv.org/abs/2401.14196

技術仕様

アーキテクチャ

LLaMA-style decoder-only Transformer, Fill-in-the-Middle (FIM) training, Repository-level code understanding, 87 programming languages

パラメータバリエーション

DeepSeek-Coder 1.3B Base(1.3B)

HuggingFace

最軽量版。モバイル・エッジ向け。

VRAM4GB

GGUFファイルは登録されていません

DeepSeek-Coder 1.3B Instruct(1.3B)

HuggingFace

1.3B指示チューニング版。

VRAM4GB

GGUFファイルは登録されていません

DeepSeek-Coder 5.7B MQA Base(5.7B)

HuggingFace

5.7Bベースモデル。Multi-Query Attention採用。

VRAM14GB

GGUFファイルは登録されていません

DeepSeek-Coder 6.7B Base(6.7B)

HuggingFace

6.7Bベースモデル。

VRAM17GB

GGUFファイルは登録されていません

DeepSeek-Coder 6.7B Instruct(6.7B)

HuggingFace

6.7B指示チューニング版。

VRAM17GB

GGUFファイルは登録されていません

DeepSeek-Coder 33B Base(33B)

HuggingFace

33Bベースモデル。HumanEval 56.1%達成。

VRAM70GB

GGUFファイルは登録されていません

DeepSeek-Coder 33B Instruct(33B)

HuggingFace

33B指示チューニング版。HumanEval 78.7%達成。

VRAM70GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-Coder

ベース

FT

派生

表示中

DeepSeek-Coder

ベンチマーク

技術仕様

アーキテクチャ

パラメータバリエーション

DeepSeek-Coder 1.3B Base(1.3B)

DeepSeek-Coder 1.3B Instruct(1.3B)

DeepSeek-Coder 5.7B MQA Base(5.7B)

DeepSeek-Coder 6.7B Base(6.7B)

DeepSeek-Coder 6.7B Instruct(6.7B)

DeepSeek-Coder 33B Base(33B)

DeepSeek-Coder 33B Instruct(33B)

関連モデル

DeepSeek-LLM

DeepSeekMoE

DeepSeek-Math

DeepSeek-VL

DeepSeek-V2

DeepSeek-Coder-V2

DeepSeek-Prover

DeepSeek-V2.5

DeepSeek-V3

DeepSeek-VL2

DeepSeek-R1

Janus

DeepSeek-R1-0528

DeepSeek-V3.1

DeepSeek-Prover-V2

DeepSeekMath-V2

DeepSeek-V3.2

家系図