Qwen3-VL
指示チューニングofficialvisionmultilingualmoe
2025年9月23日公開。Qwen3ベースのビジョン言語モデル。ネイティブ動的解像度ViT(16ピクセルパッチ)、Interleaved-MRoPE、DeepStack fusionを採用。1時間以上の動画理解、32言語以上のOCRに対応。256Kコンテキスト(1Mまで拡張可能)。Dense版とMoE版を提供。
技術仕様
アーキテクチャ
Vision Encoder (Native dynamic-resolution ViT, 16-pixel patch), Interleaved-MRoPE, DeepStack fusion, Window Attention
プロンプトテンプレート
フォーマット: chatml-vision
システムプロンプト:
<|im_start|>system
{system}<|im_end|>ユーザープロンプト:
<|im_start|>user
<|vision_start|><|image_pad|><|vision_end|>{prompt}<|im_end|>アシスタントプロンプト:
<|im_start|>assistant
ストップトークン:
<|im_end|>パラメータバリエーション
Qwen3-VL 30B-A3B (MoE)(30B/3B)
HuggingFace軽量MoE版。高効率。
MoEアクティブパラメータ: 3B / 128 エキスパート数
VRAM60GB
GGUFファイルは登録されていません
Qwen3-VL 235B-A22B (MoE)(235B/22B)
HuggingFaceフラッグシップMoE版。MMMU, MathVista, MathVisionでSOTA。
MoEアクティブパラメータ: 22B / 128 エキスパート数
VRAM470GB
GGUFファイルは登録されていません
関連モデル
家系図
現在のモデル: Qwen3-VL