Qwen2.5-VL
指示チューニングofficialvisionmultilingual
2025年1月28日公開。画像・動画・ドキュメント理解に対応したビジョン言語モデル。ネイティブ動的解像度ViT(14ピクセルパッチ)とM-RoPEを採用。1時間以上の動画理解、19言語以上のOCRに対応。GUIエージェント機能も搭載。32K-128Kコンテキスト。
ベンチマーク
mmmu
70.2
mathvista
74.8
docvqa
96.4
chartqa
89.5
ocrbench
885
videomme
79.1
screenspot
87.1
ソース: Qwen2.5-VL Technical Report (arXiv:2502.13923)
技術仕様
アーキテクチャ
Vision Encoder (Native dynamic-resolution ViT), Multimodal Rotary Position Embedding (M-RoPE), Dynamic FPS training
プロンプトテンプレート
フォーマット: chatml-vision
システムプロンプト:
<|im_start|>system
{system}<|im_end|>ユーザープロンプト:
<|im_start|>user
<|vision_start|><|image_pad|><|vision_end|>{prompt}<|im_end|>アシスタントプロンプト:
<|im_start|>assistant
ストップトークン:
<|im_end|>パラメータバリエーション
関連モデル
家系図
現在のモデル: Qwen2.5-VL