Phi-4-multimodal

ベースモデル

開発者

Microsoft Research

ライセンス

MIT

リリース日

2025/2/26

コンテキスト長

128,000 トークン

トレーニングトークン

5T text + 1.1T image-text + 2.3M hours audio

対応言語

en, zh, de, fr, it, ja, es, pt

知識カットオフ

2025-Q1

ベースモデル

phi-4-mini

officialmultimodalvisionaudiospeechmixture-of-lorasopen-source

2025年2月公開。テキスト+画像+音声の3モーダル対応。5.6Bパラメータ。Phi-4-mini（3.8B）バックボーン+SigLIPビジョンエンコーダー（440M）+Conformerスピーチエンコーダー。Mixture-of-LoRAs設計でモダリティ干渉なしに複数推論モードを実現。初のオープンソース音声要約モデル。OpenASR Leaderboard 1位、WhisperV3超のASR性能。

HuggingFace 論文

技術仕様

アーキテクチャ

Phi-4-mini backbone, SigLIP-400M vision encoder, Conformer speech encoder, Mixture-of-LoRAs

パラメータバリエーション

Phi-4-multimodal Instruct(5.6B)

HuggingFace

テキスト+画像+音声対応。OpenASR 1位（WER 6.14%）。音声要約でGPT-4oに近い性能。

VRAM3.5GB

GGUFファイルは登録されていません

家系図

現在のモデル: Phi-4-multimodal

ベース

FT

派生

表示中

Phi-4-multimodal

技術仕様

アーキテクチャ

パラメータバリエーション

Phi-4-multimodal Instruct(5.6B)

関連モデル

Phi-1

Phi-2

Phi-3

Phi-3.5

Phi-4

Phi-4-mini

Phi-4-reasoning

家系図