DeepSeek-Math

ファインチューニング

開発者

DeepSeek AI

ライセンス

DeepSeek Model License

リリース日

2024/2/5

コンテキスト長

4,096 トークン

トレーニングトークン

500B (additional)

対応言語

en, zh

知識カットオフ

2024-Q1

ベースモデル

deepseek-coder

officialmathreasoningreinforcement-learning

DeepSeek AIの数学特化LLM。2024年2月5日公開。DeepSeek-Coder-v1.5 7Bから初期化し、追加5000億トークンで学習。Group Relative Policy Optimization（GRPO）という新しい強化学習手法を導入。ツール使用時にMATH 58.8%達成、競技数学でGemini-Ultra/GPT-4に迫る性能。

HuggingFace 論文 GitHub

ベンチマーク

MATH

51.7

math-rl-tool

58.8

ソース: https://arxiv.org/abs/2402.03300

技術仕様

アーキテクチャ

Based on DeepSeek-Coder-v1.5 7B, GRPO (Group Relative Policy Optimization), Process Reward Model (PRM), Tool-integrated math solving

パラメータバリエーション

DeepSeekMath 7B Base(7B)

HuggingFace

7Bベースモデル。事前学習版。MATH 36.2%達成。

VRAM4GB

GGUFファイルは登録されていません

DeepSeekMath 7B Instruct(7B)

HuggingFace

7B SFTチューニング版。指示追従に最適化。

VRAM4GB

GGUFファイルは登録されていません

DeepSeekMath 7B RL(7B)

HuggingFace

7B GRPO強化学習版。ツール使用時MATH 58.8%達成。

VRAM4GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-Math

ベース

FT

派生

表示中

DeepSeek-Math

ベンチマーク

技術仕様

アーキテクチャ

パラメータバリエーション

DeepSeekMath 7B Base(7B)

DeepSeekMath 7B Instruct(7B)

DeepSeekMath 7B RL(7B)

関連モデル

DeepSeek-LLM

DeepSeek-Coder

DeepSeekMoE

DeepSeek-VL

DeepSeek-V2

DeepSeek-Coder-V2

DeepSeek-Prover

DeepSeek-V2.5

DeepSeek-V3

DeepSeek-VL2

DeepSeek-R1

Janus

DeepSeek-R1-0528

DeepSeek-V3.1

DeepSeek-Prover-V2

DeepSeekMath-V2

DeepSeek-V3.2

家系図