GLM-4V-9B

ベースモデル

開発者

Zhipu AI / Tsinghua University

ライセンス

Apache 2.0

リリース日

2024/6/5

コンテキスト長

8,192 トークン

対応言語

zh, en

ベースモデル

glm-4-9b

officialmultimodalvisionbilingual

CogVLM2と同じ学習レシピでGLM-4-9Bをベースに開発。EVA-E (4B)ビジョンエンコーダ採用。1120×1120解像度対応。Visual Expert不採用でモデルサイズを13Bに削減。GLM-4.1V-Thinkingなど派生モデルも展開。

HuggingFace 論文 GitHub

技術仕様

アーキテクチャ

GLM-4-9B + EVA-E (4B) Vision Encoder + 2×2 Downsampling

パラメータバリエーション

GLM-4V-9B(13B)

HuggingFace

標準版。1120×1120解像度対応。バイリンガル。

MoEアクティブパラメータ: 13B

VRAM28GB

RAM40GB

GGUFファイルは登録されていません

GLM-4.1V-9B-Thinking(9B)

HuggingFace

Chain-of-Thought推論搭載。任意アスペクト比対応、最大4K解像度。28ベンチマーク中23タスクで10Bスケール1位。

VRAM20GB

RAM32GB

GGUFファイルは登録されていません

家系図

現在のモデル: GLM-4V-9B

ベース

FT

派生

表示中

GLM-4V-9B

技術仕様

アーキテクチャ

パラメータバリエーション

GLM-4V-9B(13B)

GLM-4.1V-9B-Thinking(9B)

関連モデル

CodeGeeX

GLM-130B

ChatGLM-6B

ChatGLM2-6B

CodeGeeX2-6B

ChatGLM3-6B

CogVLM

CogAgent

CogVLM2

GLM-4-9B

CodeGeeX4-ALL-9B

GLM-4-32B-0414

GLM-Z1

GLM-4.5

GLM-4.6

GLM-4.7

家系図