Pixtral 12B
ベースモデルofficialmultimodalvisionvariable-resolutionopen-source
Mistral AIの初のマルチモーダルモデル。2024年9月17日公開。テキスト12B+ビジョンエンコーダー400Mパラメータ。スクラッチから学習した新規ビジョンエンコーダーで可変解像度・アスペクト比対応。128Kコンテキストで任意の数の画像を処理可能。Mistral NeMo 12Bのドロップイン置き換え。
ベンチマーク
mmmu-cot
52.5
mathvista-cot
58
chartqa-cot
81.8
docvqa-anls
90.7
vqav2
78.6
ソース: https://mistral.ai/news/pixtral-12b
技術仕様
アーキテクチャ
Multimodal Transformer, Variable-resolution vision encoder, 128K context
パラメータバリエーション
Pixtral 12B (2409)(12.4B)
HuggingFaceテキスト12B+ビジョン400M。可変解像度画像対応。DocVQA 90.7%達成。
MoEアクティブパラメータ: 12.4B
VRAM30GB
GGUFファイルは登録されていません
関連モデル
Mistral 7B
6 バリエーション
Mixtral 8x7B
2 バリエーション
Mixtral 8x22B
2 バリエーション
Mistral Large
2 バリエーション
Mistral Small
4 バリエーション
Mistral Medium 3
2 バリエーション
Codestral
3 バリエーション
Codestral Mamba
1 バリエーション
Mathstral
1 バリエーション
Mistral NeMo
2 バリエーション
Ministral
2 バリエーション
Pixtral Large
1 バリエーション
Mistral Saba
1 バリエーション
Magistral
2 バリエーション
Voxtral
2 バリエーション
Devstral
4 バリエーション
Mistral Large 3
6 バリエーション
家系図
現在のモデル: Pixtral 12B