CogAgent

ベースモデル
開発者
Zhipu AI / Tsinghua University
ライセンス
Apache 2.0 + Model License
リリース日
2023/12/1
コンテキスト長
2,048 トークン
対応言語
zh, en
officialmultimodalvisionagentgui

GUI操作に特化したVision-Language Agent。1120×1120高解像度対応。PC・Android両方のGUI操作が可能。9つのVLMベンチマークでSOTA。CVPR 2024 Highlightに採択。GLM-PCプロダクトの基盤モデル。

技術仕様

アーキテクチャ

High-Resolution Cross-Module + EVA-CLIP

パラメータバリエーション

CogAgent-18B(18B)

HuggingFace

ビジョン11B + 言語7B構成。1120×1120解像度対応。

MoEアクティブパラメータ: 18B
VRAM37GB
RAM64GB

GGUFファイルは登録されていません

CogAgent-9B-20241220(9B)

HuggingFace

GLM-4V-9Bベースの最新版。ScreenSpot、OmniAct、OSWorldでトップクラス。GLM-PCプロダクトに採用。

VRAM20GB
RAM32GB

GGUFファイルは登録されていません

家系図

現在のモデル: CogAgent