DeepSeek-R1-Distill-Llama
ファインチューニングDeepSeek社がDeepSeek-R1の推論能力をLlama 3ベースモデルに蒸留したモデル。長い思考連鎖(Chain-of-Thought)による高度な推論能力を持ち、数学・コーディング・論理的推論タスクで優れた性能を発揮。
技術仕様
アーキテクチャ
Transformer with GQA
パラメータバリエーション
DeepSeek-R1-Distill-Llama-70B(70B)
HuggingFaceLlama 3 70Bベースの蒸留モデル。DeepSeek-R1に匹敵する推論能力を発揮。
GGUFファイルは登録されていません
関連モデル
LLaMA 1
4 バリエーション
Llama 2
6 バリエーション
Code Llama
4 バリエーション
Llama Guard 1
1 バリエーション
Spirit-LM
2 バリエーション
Swallow (Llama 2)
3 バリエーション
Llama 3
4 バリエーション
Llama Guard 2
1 バリエーション
Swallow (Llama 3)
2 バリエーション
ELYZA Japanese
1 バリエーション
Llama 3.1
6 バリエーション
Llama Guard 3
3 バリエーション
Swallow (Llama 3.1)
2 バリエーション
Llama 3.2
8 バリエーション
Llama 3.3
1 バリエーション
Swallow (Llama 3.3)
1 バリエーション
Llama 4
3 バリエーション
Llama Guard 4
1 バリエーション
家系図
現在のモデル: DeepSeek-R1-Distill-Llama