DeepSeek-Math
ファインチューニングofficialmathreasoningreinforcement-learning
DeepSeek AIの数学特化LLM。2024年2月6日公開。DeepSeek-Coder-v1.5 7Bから初期化し、追加5000億トークンで学習。Group Relative Policy Optimization(GRPO)という新しい強化学習手法を導入。ツール使用時にMATH約60%達成、競技数学でGemini-Ultra/GPT-4に迫る性能。
ベンチマーク
MATH
51.7
math-rl-tool
60
ソース: https://arxiv.org/abs/2402.03300
技術仕様
アーキテクチャ
Based on DeepSeek-Coder-v1.5 7B, GRPO (Group Relative Policy Optimization), Process Reward Model (PRM), Tool-integrated math solving
パラメータバリエーション
関連モデル
DeepSeek-LLM
4 バリエーション
DeepSeek-Coder
7 バリエーション
DeepSeekMoE
2 バリエーション
DeepSeek-VL
2 バリエーション
DeepSeek-V2
4 バリエーション
DeepSeek-Coder-V2
4 バリエーション
DeepSeek-Prover
1 バリエーション
DeepSeek-V2.5
1 バリエーション
DeepSeek-V3
2 バリエーション
DeepSeek-VL2
3 バリエーション
DeepSeek-R1
8 バリエーション
Janus
3 バリエーション
DeepSeek-R1-0528
1 バリエーション
DeepSeek-V3.1
1 バリエーション
DeepSeek-Prover-V2
2 バリエーション
DeepSeekMath-V2
1 バリエーション
DeepSeek-V3.2
1 バリエーション
家系図
現在のモデル: DeepSeek-Math