DeepSeek-R1

ファインチューニング
開発者
DeepSeek AI
ライセンス
MIT
リリース日
2025/1/20
コンテキスト長
128,000 トークン
対応言語
en, zh
知識カットオフ
2025-Q1
ベースモデル
deepseek-v3
officialreasoningmoereinforcement-learningchain-of-thoughtopen-sourcedistillation

DeepSeek AIの推論特化モデル。2025年1月20日公開。R1-Zeroは純粋RL学習のみで推論能力を検証した初のモデル。R1はコールドスタートデータ+RLで可読性向上。AIME 2024で79.8% Pass@1、MATH-500で97.3%達成。6種類の蒸留モデル(Qwen/Llamaベース)も提供。MITライセンス。

ベンチマーク

MATH
97.3
aime-2024-pass1
79.8
math-500
97.3

ソース: https://arxiv.org/abs/2501.12948

技術仕様

アーキテクチャ

MoE based on DeepSeek-V3, Self-verification, Reflection, Long Chain-of-Thought generation, Maximum generation length 32,768 tokens

プロンプトテンプレート

フォーマット: deepseek-r1
ユーザープロンプト:
<|begin▁of▁sentence|><|User|>{user_message}<|Assistant|><|think|>
アシスタントプロンプト:
{reasoning_process}
<|/think|>

{final_answer}<|end▁of▁sentence|>
ストップトークン:
<|end▁of▁sentence|>

パラメータバリエーション

DeepSeek-R1-Zero(671B)

HuggingFace

純粋RL学習のみで推論能力を検証した初のモデル。SFTなし。

MoEアクティブパラメータ: 37B
VRAM1.4TB

GGUFファイルは登録されていません

DeepSeek-R1(671B)

HuggingFace

フルサイズ推論モデル。AIME 2024で79.8% Pass@1達成。

MoEアクティブパラメータ: 37B
VRAM1.4TB

GGUFファイルは登録されていません

DeepSeek-R1-Distill-Qwen-1.5B(1.5B)

HuggingFace

Qwen2.5-1.5Bベースの蒸留モデル。80万件の推論サンプルで学習。

VRAM4GB

GGUFファイルは登録されていません

DeepSeek-R1-Distill-Qwen-7B(7B)

HuggingFace

Qwen2.5-7Bベースの蒸留モデル。

VRAM17GB

GGUFファイルは登録されていません

DeepSeek-R1-Distill-Llama-8B(8B)

HuggingFace

Llama 3.1-8Bベースの蒸留モデル。

VRAM20GB

GGUFファイルは登録されていません

DeepSeek-R1-Distill-Qwen-14B(14B)

HuggingFace

Qwen2.5-14Bベースの蒸留モデル。

VRAM35GB

GGUFファイルは登録されていません

DeepSeek-R1-Distill-Qwen-32B(32B)

HuggingFace

Qwen2.5-32Bベースの蒸留モデル。AIME 2024で72.6% Pass@1、OpenAI o1-miniを上回る。

VRAM70GB

GGUFファイルは登録されていません

DeepSeek-R1-Distill-Llama-70B(70B)

HuggingFace

Llama 3.1-70Bベースの蒸留モデル。最大の蒸留版。

VRAM140GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-R1