Qwen2.5-VL

指示チューニング

開発者

Alibaba Cloud / Qwen Team

ライセンス

Apache 2.0 (3B-32B), Qwen License (72B)

リリース日

2025/1/28

コンテキスト長

131,072 トークン

対応言語

en, zh, es, fr, de, ar, ru, ko, ja, th, vi, pt, it, hi, id

ベースモデル

Qwen2.5

officialvisionmultilingual

2025年1月28日公開。画像・動画・ドキュメント理解に対応したビジョン言語モデル。ネイティブ動的解像度ViT（14ピクセルパッチ）とM-RoPEを採用。1時間以上の動画理解、19言語以上のOCRに対応。GUIエージェント機能も搭載。32K-128Kコンテキスト。

HuggingFace 論文 GitHub 公式サイト

ベンチマーク

mmmu

70.2

mathvista

74.8

docvqa

96.4

chartqa

89.5

ocrbench

885

videomme

79.1

screenspot

87.1

ソース: Qwen2.5-VL Technical Report (arXiv:2502.13923)

技術仕様

アーキテクチャ

Vision Encoder (Native dynamic-resolution ViT), Multimodal Rotary Position Embedding (M-RoPE), Dynamic FPS training

プロンプトテンプレート

フォーマット: chatml-vision

システムプロンプト:

<|im_start|>system
{system}<|im_end|>

ユーザープロンプト:

<|im_start|>user
<|vision_start|><|image_pad|><|vision_end|>{prompt}<|im_end|>

アシスタントプロンプト:

<|im_start|>assistant

ベース

FT

派生

表示中

Qwen2.5-VL

ベンチマーク

技術仕様

アーキテクチャ

プロンプトテンプレート

パラメータバリエーション

Qwen2.5-VL 3B(3B)

Qwen2.5-VL 7B(7B)

Qwen2.5-VL 32B(32B)

Qwen2.5-VL 72B(72B)

関連モデル

Qwen1.5

CodeQwen1.5

Qwen2

Qwen2.5

Qwen2.5-Coder

Qwen2.5-Math

QwQ

Qwen3

Qwen3-Coder

Qwen3-Embedding

Qwen3-VL

Qwen3-Next

家系図