Qwen3-VL

指示チューニング
開発者
Alibaba Cloud / Qwen Team
ライセンス
Apache 2.0
リリース日
2025/9/23
コンテキスト長
262,144 トークン
対応言語
en, zh, es, fr, de, ar, ru, ko, ja, th, vi, pt, it, hi, id
ベースモデル
Qwen3
officialvisionmultilingualmoe

2025年9月23日公開。Qwen3ベースのビジョン言語モデル。ネイティブ動的解像度ViT(16ピクセルパッチ)、Interleaved-MRoPE、DeepStack fusionを採用。1時間以上の動画理解、32言語以上のOCRに対応。256Kコンテキスト(1Mまで拡張可能)。Dense版とMoE版を提供。

技術仕様

アーキテクチャ

Vision Encoder (Native dynamic-resolution ViT, 16-pixel patch), Interleaved-MRoPE, DeepStack fusion, Window Attention

プロンプトテンプレート

フォーマット: chatml-vision
システムプロンプト:
<|im_start|>system
{system}<|im_end|>
ユーザープロンプト:
<|im_start|>user
<|vision_start|><|image_pad|><|vision_end|>{prompt}<|im_end|>
アシスタントプロンプト:
<|im_start|>assistant
ストップトークン:
<|im_end|>

パラメータバリエーション

Qwen3-VL 2B(2B)

HuggingFace

最軽量Dense版。

VRAM6GB

GGUFファイルは登録されていません

Qwen3-VL 4B(4B)

HuggingFace

コンパクトDense版。

VRAM10GB

GGUFファイルは登録されていません

Qwen3-VL 8B(8B)

HuggingFace

標準Dense版。

VRAM18GB

GGUFファイルは登録されていません

Qwen3-VL 32B(32B)

HuggingFace

大型Dense版。

VRAM70GB

GGUFファイルは登録されていません

Qwen3-VL 30B-A3B (MoE)(30B/3B)

HuggingFace

軽量MoE版。高効率。

MoEアクティブパラメータ: 3B / 128 エキスパート数
VRAM60GB

GGUFファイルは登録されていません

Qwen3-VL 235B-A22B (MoE)(235B/22B)

HuggingFace

フラッグシップMoE版。MMMU, MathVista, MathVisionでSOTA。

MoEアクティブパラメータ: 22B / 128 エキスパート数
VRAM470GB

GGUFファイルは登録されていません

家系図

現在のモデル: Qwen3-VL