CogVLM2

ベースモデル

開発者

Zhipu AI / Tsinghua University

ライセンス

CogVLM2 License + Llama 3 License

リリース日

2024/5/20

コンテキスト長

8,192 トークン

対応言語

zh, en

officialmultimodalvisionvideo

GPT-4Vに匹敵するマルチモーダルモデル。Llama-3-8B-Instructベース。最大1344×1344解像度対応。2×2ダウンサンプリングとVisual Expertを継承。動画理解版（CogVLM2-Video）も提供。

HuggingFace 論文 GitHub

技術仕様

アーキテクチャ

Llama-3-8B-Instruct + Visual Expert + 2×2 Downsampling

パラメータバリエーション

CogVLM2-Llama3-Chat-19B(19B)

HuggingFace

Llama-3-8B-Instructベースの対話版。1344×1344解像度対応。

VRAM11GB

GGUFファイルは登録されていません

CogVLM2-Video-Llama3-Chat(19B)

HuggingFace

動画理解版。タイムスタンプ付きフレーム入力に対応。

VRAM11GB

GGUFファイルは登録されていません

家系図

現在のモデル: CogVLM2

ベース

FT

派生

表示中

CogVLM2

技術仕様

アーキテクチャ

パラメータバリエーション

CogVLM2-Llama3-Chat-19B(19B)

CogVLM2-Video-Llama3-Chat(19B)

関連モデル

CodeGeeX

GLM-130B

ChatGLM-6B

ChatGLM2-6B

CodeGeeX2-6B

ChatGLM3-6B

CogVLM

CogAgent

GLM-4-9B

GLM-4V-9B

CodeGeeX4-ALL-9B

GLM-4-32B-0414

GLM-Z1

GLM-4.5

GLM-4.6

GLM-4.7

家系図