CogVLM
ベースモデルofficialmultimodalvision
Visual Expert Moduleを導入した強力なVision-Language Model。言語能力を損なわずに深い視覚-言語融合を実現。10のVLMベンチマークでSOTA。NeurIPS 2024に採択。
技術仕様
アーキテクチャ
EVA-CLIP Vision Encoder + Visual Expert Module
パラメータバリエーション
CogVLM-17B(17B)
HuggingFaceビジョン10B + 言語7B構成。490×490解像度対応。
MoEアクティブパラメータ: 17B
VRAM35GB
RAM48GB
GGUFファイルは登録されていません
関連モデル
家系図
現在のモデル: CogVLM