Phi-4-multimodal
ベースモデルofficialmultimodalvisionaudiospeechmixture-of-lorasopen-source
2025年2月公開。テキスト+画像+音声の3モーダル対応。5.6Bパラメータ。Phi-4-mini(3.8B)バックボーン+SigLIPビジョンエンコーダー(440M)+Conformerスピーチエンコーダー。Mixture-of-LoRAs設計でモダリティ干渉なしに複数推論モードを実現。初のオープンソース音声要約モデル。OpenASR Leaderboard 1位、WhisperV3超のASR性能。
技術仕様
アーキテクチャ
Phi-4-mini backbone, SigLIP-400M vision encoder, Conformer speech encoder, Mixture-of-LoRAs
パラメータバリエーション
Phi-4-multimodal Instruct(5.6B)
HuggingFaceテキスト+画像+音声対応。OpenASR 1位(WER 6.14%)。音声要約でGPT-4oに近い性能。
VRAM12GB
GGUFファイルは登録されていません
関連モデル
家系図
現在のモデル: Phi-4-multimodal