DeepSeek-Math

ファインチューニング
開発者
DeepSeek AI
ライセンス
DeepSeek Model License
リリース日
2024/2/6
コンテキスト長
4,096 トークン
トレーニングトークン
500B (additional)
対応言語
en, zh
知識カットオフ
2024-Q1
ベースモデル
deepseek-coder
officialmathreasoningreinforcement-learning

DeepSeek AIの数学特化LLM。2024年2月6日公開。DeepSeek-Coder-v1.5 7Bから初期化し、追加5000億トークンで学習。Group Relative Policy Optimization(GRPO)という新しい強化学習手法を導入。ツール使用時にMATH約60%達成、競技数学でGemini-Ultra/GPT-4に迫る性能。

ベンチマーク

MATH
51.7
math-rl-tool
60

ソース: https://arxiv.org/abs/2402.03300

技術仕様

アーキテクチャ

Based on DeepSeek-Coder-v1.5 7B, GRPO (Group Relative Policy Optimization), Process Reward Model (PRM), Tool-integrated math solving

パラメータバリエーション

DeepSeekMath 7B Base(7B)

HuggingFace

7Bベースモデル。事前学習版。MATH 51.7%達成。

VRAM17GB

GGUFファイルは登録されていません

DeepSeekMath 7B Instruct(7B)

HuggingFace

7B SFTチューニング版。指示追従に最適化。

VRAM17GB

GGUFファイルは登録されていません

DeepSeekMath 7B RL(7B)

HuggingFace

7B GRPO強化学習版。ツール使用時MATH約60%達成。

VRAM17GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-Math