Phi-4-reasoning
ファインチューニングofficialreasoningchain-of-thoughto3-distillationmathopen-source
2025年4月公開。Phi-4ベースの推論特化モデル。o3-miniの推論デモンストレーションでSFT学習。14Bパラメータで671BのDeepSeek-R1に匹敵。o1-miniを大半のベンチマークで上回り、Claude 3.7 Sonnet、Gemini 2 Flash Thinkingを上回る。Phi-4-reasoning-plusは強化学習(RL)による追加最適化版。
技術仕様
アーキテクチャ
Dense Transformer, SFT on o3-mini reasoning traces, Chain-of-Thought
パラメータバリエーション
Phi-4-reasoning(14B)
HuggingFaceo3-mini蒸留モデル。AIME 2025でDeepSeek-R1(671B)に匹敵。
VRAM30GB
GGUFファイルは登録されていません
Phi-4-reasoning-plus(14B)
HuggingFaceRL強化版。DeepSeek-R1を上回る。並列テスト時間スケーリングでo3-miniを超える。
VRAM30GB
GGUFファイルは登録されていません
関連モデル
家系図
現在のモデル: Phi-4-reasoning