DeepSeek-Coder-V2

ファインチューニング
開発者
DeepSeek AI
ライセンス
DeepSeek Model License
リリース日
2024/6/17
コンテキスト長
128,000 トークン
トレーニングトークン
6T (additional)
対応言語
en, zh, code
知識カットオフ
2024-Q2
ベースモデル
deepseek-v2
officialcode-generationmoelong-contextmathmultilingual-code

DeepSeek AIの第2世代コードMoEモデル。2024年6月17日公開。DeepSeek-V2ベースに追加6兆トークン(60%コード、10%数学、30%自然言語)で学習。338プログラミング言語対応、128Kコンテキスト。HumanEval 90.2%、MATH 75.7%達成。

ベンチマーク

HumanEval
90.2
MATH
75.7
mbpp-plus
76.2

ソース: https://arxiv.org/abs/2406.11931

技術仕様

アーキテクチャ

MoE based on DeepSeek-V2, 338 programming languages support

パラメータバリエーション

DeepSeek-Coder-V2-Lite Base(16B)

HuggingFace

16B総パラメータ、24億活性化の軽量版。

MoEアクティブパラメータ: 2.4B
VRAM35GB

GGUFファイルは登録されていません

DeepSeek-Coder-V2-Lite Instruct(16B)

HuggingFace

Lite指示チューニング版。

MoEアクティブパラメータ: 2.4B
VRAM35GB

GGUFファイルは登録されていません

DeepSeek-Coder-V2 Base(236B)

HuggingFace

236B総パラメータ、210億活性化のフラッグシップ。

MoEアクティブパラメータ: 21B
VRAM500GB

GGUFファイルは登録されていません

DeepSeek-Coder-V2 Instruct(236B)

HuggingFace

236B指示チューニング版。HumanEval 90.2%、MATH 75.7%達成。

MoEアクティブパラメータ: 21B
VRAM500GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-Coder-V2