Qwen3-VL

指示チューニング

開発者

Alibaba Cloud / Qwen Team

ライセンス

Apache 2.0

リリース日

2025/9/23

コンテキスト長

262,144 トークン

対応言語

en, zh, es, fr, de, ar, ru, ko, ja, th, vi, pt, it, hi, id

ベースモデル

Qwen3

officialvisionmultilingualmoe

2025年9月23日公開。Qwen3ベースのビジョン言語モデル。ネイティブ動的解像度ViT（16ピクセルパッチ）、Interleaved-MRoPE、DeepStack fusionを採用。1時間以上の動画理解、32言語以上のOCRに対応。256Kコンテキスト（1Mまで拡張可能）。Dense版とMoE版を提供。

HuggingFace 論文 GitHub 公式サイト

技術仕様

アーキテクチャ

Vision Encoder (Native dynamic-resolution ViT, 16-pixel patch), Interleaved-MRoPE, DeepStack fusion, Window Attention

プロンプトテンプレート

フォーマット: chatml-vision

システムプロンプト:

<|im_start|>system
{system}<|im_end|>

ユーザープロンプト:

<|im_start|>user
<|vision_start|><|image_pad|><|vision_end|>{prompt}<|im_end|>

アシスタントプロンプト:

<|im_start|>assistant

軽量MoE版。高効率。

MoEアクティブパラメータ: 3B / 128 エキスパート数

VRAM60GB

GGUFファイルは登録されていません

Qwen3-VL 235B-A22B (MoE)(235B/22B)

HuggingFace

フラッグシップMoE版。MMMU, MathVista, MathVisionでSOTA。

MoEアクティブパラメータ: 22B / 128 エキスパート数

VRAM470GB

GGUFファイルは登録されていません

家系図

現在のモデル: Qwen3-VL

ベース

FT

派生

表示中

Qwen3-VL

技術仕様

アーキテクチャ

プロンプトテンプレート

パラメータバリエーション

Qwen3-VL 2B(2B)

Qwen3-VL 4B(4B)

Qwen3-VL 8B(8B)

Qwen3-VL 32B(32B)

Qwen3-VL 30B-A3B (MoE)(30B/3B)

Qwen3-VL 235B-A22B (MoE)(235B/22B)

関連モデル

Qwen1.5

CodeQwen1.5

Qwen2

Qwen2.5

Qwen2.5-Coder

Qwen2.5-Math

Qwen2.5-VL

QwQ

Qwen3

Qwen3-Coder

Qwen3-Embedding

Qwen3-Next

家系図