Phi-4-reasoning

ファインチューニング
開発者
Microsoft Research
ライセンス
MIT
リリース日
2025/4/30
コンテキスト長
16,000 トークン
対応言語
en
知識カットオフ
2025-Q1
ベースモデル
phi-4
officialreasoningchain-of-thoughto3-distillationmathopen-source

2025年4月公開。Phi-4ベースの推論特化モデル。o3-miniの推論デモンストレーションでSFT学習。14Bパラメータで671BのDeepSeek-R1に匹敵。o1-miniを大半のベンチマークで上回り、Claude 3.7 Sonnet、Gemini 2 Flash Thinkingを上回る。Phi-4-reasoning-plusは強化学習(RL)による追加最適化版。

技術仕様

アーキテクチャ

Dense Transformer, SFT on o3-mini reasoning traces, Chain-of-Thought

パラメータバリエーション

Phi-4-reasoning(14B)

HuggingFace

o3-mini蒸留モデル。AIME 2025でDeepSeek-R1(671B)に匹敵。

VRAM30GB

GGUFファイルは登録されていません

Phi-4-reasoning-plus(14B)

HuggingFace

RL強化版。DeepSeek-R1を上回る。並列テスト時間スケーリングでo3-miniを超える。

VRAM30GB

GGUFファイルは登録されていません

家系図

現在のモデル: Phi-4-reasoning