CogVLM

ベースモデル

開発者

Zhipu AI / Tsinghua University

ライセンス

Apache 2.0 + Model License

リリース日

2023/10/1

コンテキスト長

2,048 トークン

対応言語

zh, en

officialmultimodalvision

Visual Expert Moduleを導入した強力なVision-Language Model。言語能力を損なわずに深い視覚-言語融合を実現。15のクロスモーダルベンチマークでSOTA。NeurIPS 2024に採択。

HuggingFace 論文 GitHub

技術仕様

アーキテクチャ

EVA-CLIP Vision Encoder + Visual Expert Module

パラメータバリエーション

CogVLM-17B(17B)

HuggingFace

ビジョン10B + 言語7B構成。490×490解像度対応。

MoEアクティブパラメータ: 17B

VRAM9.5GB

GGUFファイルは登録されていません

CogVLM-Chat(17B)

HuggingFace

対話版。マルチターン画像対話に対応。

VRAM9.5GB

GGUFファイルは登録されていません

CogVLM-Grounding(17B)

HuggingFace

Visual Grounding特化版。物体検出・位置指定に最適化。

VRAM9.5GB

GGUFファイルは登録されていません

家系図

現在のモデル: CogVLM

ベース

FT

派生

表示中

CogVLM

技術仕様

アーキテクチャ

パラメータバリエーション

CogVLM-17B(17B)

CogVLM-Chat(17B)

CogVLM-Grounding(17B)

関連モデル

CodeGeeX

GLM-130B

ChatGLM-6B

ChatGLM2-6B

CodeGeeX2-6B

ChatGLM3-6B

CogAgent

CogVLM2

GLM-4-9B

GLM-4V-9B

CodeGeeX4-ALL-9B

GLM-4-32B-0414

GLM-Z1

GLM-4.5

GLM-4.6

GLM-4.7

家系図