DeepSeek-Coder

ベースモデル
開発者
DeepSeek AI
ライセンス
DeepSeek Model License
リリース日
2023/11/2
コンテキスト長
16,384 トークン
トレーニングトークン
2T
対応言語
en, code
知識カットオフ
2023
officialcode-generationfill-in-middlemultilingual-code

DeepSeek AIのコード特化LLM。2023年11月2日公開。2兆トークン(87%コード、13%自然言語)で学習。87プログラミング言語対応。Fill-in-the-Middle(FIM)学習でコード補完に対応。16Kコンテキスト。

ベンチマーク

HumanEval
56.1
mbpp
70.1
humaneval-instruct-33b
78.7

ソース: https://arxiv.org/abs/2401.14196

技術仕様

アーキテクチャ

LLaMA-style decoder-only Transformer, Fill-in-the-Middle (FIM) training, Repository-level code understanding, 87 programming languages

パラメータバリエーション

DeepSeek-Coder 1.3B Base(1.3B)

HuggingFace

最軽量版。モバイル・エッジ向け。

VRAM4GB

GGUFファイルは登録されていません

DeepSeek-Coder 1.3B Instruct(1.3B)

HuggingFace

1.3B指示チューニング版。

VRAM4GB

GGUFファイルは登録されていません

DeepSeek-Coder 5.7B MQA Base(5.7B)

HuggingFace

5.7Bベースモデル。Multi-Query Attention採用。

VRAM14GB

GGUFファイルは登録されていません

DeepSeek-Coder 6.7B Base(6.7B)

HuggingFace

6.7Bベースモデル。

VRAM17GB

GGUFファイルは登録されていません

DeepSeek-Coder 6.7B Instruct(6.7B)

HuggingFace

6.7B指示チューニング版。

VRAM17GB

GGUFファイルは登録されていません

DeepSeek-Coder 33B Base(33B)

HuggingFace

33Bベースモデル。HumanEval 56.1%達成。

VRAM70GB

GGUFファイルは登録されていません

DeepSeek-Coder 33B Instruct(33B)

HuggingFace

33B指示チューニング版。HumanEval 78.7%達成。

VRAM70GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-Coder