CogVLM2

ベースモデル
開発者
Zhipu AI / Tsinghua University
ライセンス
Apache 2.0 + Model License
リリース日
2024/5/1
コンテキスト長
8,192 トークン
対応言語
zh, en
officialmultimodalvisionvideo

GPT-4Vに匹敵するマルチモーダルモデル。Llama-3-8B-Instructベース。最大1344×1344解像度対応。2×2ダウンサンプリングとVisual Expertを継承。動画理解版(CogVLM2-Video)も提供。

技術仕様

アーキテクチャ

Llama-3-8B-Instruct + Visual Expert + 2×2 Downsampling

パラメータバリエーション

CogVLM2-Llama3-Chat-19B(19B)

HuggingFace

Llama-3-8B-Instructベースの対話版。1344×1344解像度対応。

VRAM40GB
RAM64GB

GGUFファイルは登録されていません

CogVLM2-Video-Llama3-Chat(19B)

HuggingFace

動画理解版。タイムスタンプ付きフレーム入力に対応。

VRAM40GB
RAM64GB

GGUFファイルは登録されていません

家系図

現在のモデル: CogVLM2