DeepSeek-Coder-V2

ファインチューニング

開発者

DeepSeek AI

ライセンス

DeepSeek Model License

リリース日

2024/6/17

コンテキスト長

128,000 トークン

トレーニングトークン

6T (additional)

対応言語

en, zh, code

知識カットオフ

2024-Q2

ベースモデル

deepseek-v2

officialcode-generationmoelong-contextmathmultilingual-code

DeepSeek AIの第2世代コードMoEモデル。2024年6月17日公開。DeepSeek-V2ベースに追加6兆トークン（60%コード、10%数学、30%自然言語）で学習。338プログラミング言語対応、128Kコンテキスト。HumanEval 90.2%、MATH 75.7%達成。

HuggingFace 論文 GitHub

ベンチマーク

HumanEval

90.2

MATH

75.7

mbpp-plus

76.2

ソース: https://arxiv.org/abs/2406.11931

技術仕様

アーキテクチャ

MoE based on DeepSeek-V2, 338 programming languages support

パラメータバリエーション

DeepSeek-Coder-V2-Lite Base(16B)

HuggingFace

16B総パラメータ、24億活性化の軽量版。

MoEアクティブパラメータ: 2.4B

VRAM35GB

GGUFファイルは登録されていません

DeepSeek-Coder-V2-Lite Instruct(16B)

HuggingFace

Lite指示チューニング版。

MoEアクティブパラメータ: 2.4B

VRAM35GB

GGUFファイルは登録されていません

DeepSeek-Coder-V2 Base(236B)

HuggingFace

236B総パラメータ、210億活性化のフラッグシップ。

MoEアクティブパラメータ: 21B

VRAM500GB

GGUFファイルは登録されていません

DeepSeek-Coder-V2 Instruct(236B)

HuggingFace

236B指示チューニング版。HumanEval 90.2%、MATH 75.7%達成。

MoEアクティブパラメータ: 21B

VRAM500GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-Coder-V2

ベース

FT

派生

表示中

DeepSeek-Coder-V2

ベンチマーク

技術仕様

アーキテクチャ

パラメータバリエーション

DeepSeek-Coder-V2-Lite Base(16B)

DeepSeek-Coder-V2-Lite Instruct(16B)

DeepSeek-Coder-V2 Base(236B)

DeepSeek-Coder-V2 Instruct(236B)

関連モデル

DeepSeek-LLM

DeepSeek-Coder

DeepSeekMoE

DeepSeek-Math

DeepSeek-VL

DeepSeek-V2

DeepSeek-Prover

DeepSeek-V2.5

DeepSeek-V3

DeepSeek-VL2

DeepSeek-R1

Janus

DeepSeek-R1-0528

DeepSeek-V3.1

DeepSeek-Prover-V2

DeepSeekMath-V2

DeepSeek-V3.2

家系図