GLM-4V-9B
ベースモデルofficialmultimodalvisionbilingual
CogVLM2と同じ学習レシピでGLM-4-9Bをベースに開発。EVA-E (4B)ビジョンエンコーダ採用。1120×1120解像度対応。Visual Expert不採用でモデルサイズを13Bに削減。GLM-4.1V-Thinkingなど派生モデルも展開。
技術仕様
アーキテクチャ
GLM-4-9B + EVA-E (4B) Vision Encoder + 2×2 Downsampling
パラメータバリエーション
GLM-4V-9B(13B)
HuggingFace標準版。1120×1120解像度対応。バイリンガル。
MoEアクティブパラメータ: 13B
VRAM28GB
RAM40GB
GGUFファイルは登録されていません
GLM-4.1V-9B-Thinking(9B)
HuggingFaceChain-of-Thought推論搭載。任意アスペクト比対応、最大4K解像度。28ベンチマーク中23タスクで10Bスケール1位。
VRAM20GB
RAM32GB
GGUFファイルは登録されていません
関連モデル
家系図
現在のモデル: GLM-4V-9B