Phi-4-multimodal

ベースモデル
開発者
Microsoft Research
ライセンス
MIT
リリース日
2025/2/26
コンテキスト長
128,000 トークン
トレーニングトークン
5T text + 1.1T image-text + 2.3M hours audio
対応言語
en, zh, de, fr, it, ja, es, pt
知識カットオフ
2025-Q1
ベースモデル
phi-4-mini
officialmultimodalvisionaudiospeechmixture-of-lorasopen-source

2025年2月公開。テキスト+画像+音声の3モーダル対応。5.6Bパラメータ。Phi-4-mini(3.8B)バックボーン+SigLIPビジョンエンコーダー(440M)+Conformerスピーチエンコーダー。Mixture-of-LoRAs設計でモダリティ干渉なしに複数推論モードを実現。初のオープンソース音声要約モデル。OpenASR Leaderboard 1位、WhisperV3超のASR性能。

技術仕様

アーキテクチャ

Phi-4-mini backbone, SigLIP-400M vision encoder, Conformer speech encoder, Mixture-of-LoRAs

パラメータバリエーション

Phi-4-multimodal Instruct(5.6B)

HuggingFace

テキスト+画像+音声対応。OpenASR 1位(WER 6.14%)。音声要約でGPT-4oに近い性能。

VRAM12GB

GGUFファイルは登録されていません

家系図

現在のモデル: Phi-4-multimodal