GLM-4V-9B

ベースモデル
開発者
Zhipu AI / Tsinghua University
ライセンス
Apache 2.0
リリース日
2024/6/5
コンテキスト長
8,192 トークン
対応言語
zh, en
ベースモデル
glm-4-9b
officialmultimodalvisionbilingual

CogVLM2と同じ学習レシピでGLM-4-9Bをベースに開発。EVA-E (4B)ビジョンエンコーダ採用。1120×1120解像度対応。Visual Expert不採用でモデルサイズを13Bに削減。GLM-4.1V-Thinkingなど派生モデルも展開。

技術仕様

アーキテクチャ

GLM-4-9B + EVA-E (4B) Vision Encoder + 2×2 Downsampling

パラメータバリエーション

GLM-4V-9B(13B)

HuggingFace

標準版。1120×1120解像度対応。バイリンガル。

MoEアクティブパラメータ: 13B
VRAM28GB
RAM40GB

GGUFファイルは登録されていません

GLM-4.1V-9B-Thinking(9B)

HuggingFace

Chain-of-Thought推論搭載。任意アスペクト比対応、最大4K解像度。28ベンチマーク中23タスクで10Bスケール1位。

VRAM20GB
RAM32GB

GGUFファイルは登録されていません

家系図

現在のモデル: GLM-4V-9B