CogVLM

ベースモデル
開発者
Zhipu AI / Tsinghua University
ライセンス
Apache 2.0 + Model License
リリース日
2023/10/1
コンテキスト長
2,048 トークン
対応言語
zh, en
officialmultimodalvision

Visual Expert Moduleを導入した強力なVision-Language Model。言語能力を損なわずに深い視覚-言語融合を実現。10のVLMベンチマークでSOTA。NeurIPS 2024に採択。

技術仕様

アーキテクチャ

EVA-CLIP Vision Encoder + Visual Expert Module

パラメータバリエーション

CogVLM-17B(17B)

HuggingFace

ビジョン10B + 言語7B構成。490×490解像度対応。

MoEアクティブパラメータ: 17B
VRAM35GB
RAM48GB

GGUFファイルは登録されていません

CogVLM-Chat(17B)

HuggingFace

対話版。マルチターン画像対話に対応。

VRAM35GB
RAM48GB

GGUFファイルは登録されていません

CogVLM-Grounding(17B)

HuggingFace

Visual Grounding特化版。物体検出・位置指定に最適化。

VRAM35GB
RAM48GB

GGUFファイルは登録されていません

家系図

現在のモデル: CogVLM