Pixtral 12B

ベースモデル
開発者
Mistral AI
ライセンス
Apache-2.0
リリース日
2024/9/17
コンテキスト長
128,000 トークン
対応言語
en
知識カットオフ
2024-Q3
ベースモデル
mistral-nemo
officialmultimodalvisionvariable-resolutionopen-source

Mistral AIの初のマルチモーダルモデル。2024年9月17日公開。テキスト12B+ビジョンエンコーダー400Mパラメータ。スクラッチから学習した新規ビジョンエンコーダーで可変解像度・アスペクト比対応。128Kコンテキストで任意の数の画像を処理可能。Mistral NeMo 12Bのドロップイン置き換え。

ベンチマーク

mmmu-cot
52.5
mathvista-cot
58
chartqa-cot
81.8
docvqa-anls
90.7
vqav2
78.6

ソース: https://mistral.ai/news/pixtral-12b

技術仕様

アーキテクチャ

Multimodal Transformer, Variable-resolution vision encoder, 128K context

パラメータバリエーション

Pixtral 12B (2409)(12.4B)

HuggingFace

テキスト12B+ビジョン400M。可変解像度画像対応。DocVQA 90.7%達成。

MoEアクティブパラメータ: 12.4B
VRAM30GB

GGUFファイルは登録されていません

家系図

現在のモデル: Pixtral 12B