Qwen2.5-VL

指示チューニング
開発者
Alibaba Cloud / Qwen Team
ライセンス
Apache 2.0 (3B-32B), Qwen License (72B)
リリース日
2025/1/28
コンテキスト長
131,072 トークン
対応言語
en, zh, es, fr, de, ar, ru, ko, ja, th, vi, pt, it, hi, id
ベースモデル
Qwen2.5
officialvisionmultilingual

2025年1月28日公開。画像・動画・ドキュメント理解に対応したビジョン言語モデル。ネイティブ動的解像度ViT(14ピクセルパッチ)とM-RoPEを採用。1時間以上の動画理解、19言語以上のOCRに対応。GUIエージェント機能も搭載。32K-128Kコンテキスト。

ベンチマーク

mmmu
70.2
mathvista
74.8
docvqa
96.4
chartqa
89.5
ocrbench
885
videomme
79.1
screenspot
87.1

ソース: Qwen2.5-VL Technical Report (arXiv:2502.13923)

技術仕様

アーキテクチャ

Vision Encoder (Native dynamic-resolution ViT), Multimodal Rotary Position Embedding (M-RoPE), Dynamic FPS training

プロンプトテンプレート

フォーマット: chatml-vision
システムプロンプト:
<|im_start|>system
{system}<|im_end|>
ユーザープロンプト:
<|im_start|>user
<|vision_start|><|image_pad|><|vision_end|>{prompt}<|im_end|>
アシスタントプロンプト:
<|im_start|>assistant
ストップトークン:
<|im_end|>

パラメータバリエーション

Qwen2.5-VL 3B(3B)

HuggingFace

軽量版。エッジデバイス向け。

VRAM8GB

GGUFファイルは登録されていません

Qwen2.5-VL 7B(7B)

HuggingFace

標準版。汎用利用に最適。

VRAM16GB

GGUFファイルは登録されていません

Qwen2.5-VL 32B(32B)

HuggingFace

大型版。高精度ビジョンタスク向け。

VRAM70GB

GGUFファイルは登録されていません

Qwen2.5-VL 72B(72B)

HuggingFace

フラッグシップ版。最高精度。

VRAM144GB

GGUFファイルは登録されていません

家系図

現在のモデル: Qwen2.5-VL