CogAgent
ベースモデルofficialmultimodalvisionagentgui
GUI操作に特化したVision-Language Agent。1120×1120高解像度対応。PC・Android両方のGUI操作が可能。9つのVLMベンチマークでSOTA。CVPR 2024 Highlightに採択。GLM-PCプロダクトの基盤モデル。
技術仕様
アーキテクチャ
High-Resolution Cross-Module + EVA-CLIP
パラメータバリエーション
CogAgent-18B(18B)
HuggingFaceビジョン11B + 言語7B構成。1120×1120解像度対応。
MoEアクティブパラメータ: 18B
VRAM37GB
RAM64GB
GGUFファイルは登録されていません
CogAgent-9B-20241220(9B)
HuggingFaceGLM-4V-9Bベースの最新版。ScreenSpot、OmniAct、OSWorldでトップクラス。GLM-PCプロダクトに採用。
VRAM20GB
RAM32GB
GGUFファイルは登録されていません
関連モデル
家系図
現在のモデル: CogAgent