CogVLM2
ベースモデルofficialmultimodalvisionvideo
GPT-4Vに匹敵するマルチモーダルモデル。Llama-3-8B-Instructベース。最大1344×1344解像度対応。2×2ダウンサンプリングとVisual Expertを継承。動画理解版(CogVLM2-Video)も提供。
技術仕様
アーキテクチャ
Llama-3-8B-Instruct + Visual Expert + 2×2 Downsampling
パラメータバリエーション
CogVLM2-Llama3-Chat-19B(19B)
HuggingFaceLlama-3-8B-Instructベースの対話版。1344×1344解像度対応。
VRAM40GB
RAM64GB
GGUFファイルは登録されていません
関連モデル
家系図
現在のモデル: CogVLM2