DeepSeek-VL2

ファインチューニング
開発者
DeepSeek AI
ライセンス
DeepSeek Model License
リリース日
2024/12/13
対応言語
en, zh
知識カットオフ
2024-Q4
ベースモデル
deepseek-v2
officialvisionmultimodalmoeocrdocument-understanding

DeepSeek AIの第2世代Vision-Language MoEモデル。2024年12月13日公開。384x384基本解像度で動的タイリング対応。Tiny(33.7B/10B活性化)、Small(161B/28B活性化)、フル(275B/45B活性化)の3サイズ展開。OCR、文書理解、チャート分析に強い。

ベンチマーク

mmstar-tiny
45.9
ocrbench-tiny
809
docvqa-tiny
88.9
chartqa-tiny
81
mathvista-tiny
53.6

ソース: https://arxiv.org/abs/2412.10302

技術仕様

アーキテクチャ

Vision-Language MoE, 384x384 base resolution, Dynamic tiling

パラメータバリエーション

DeepSeek-VL2-Tiny(33.7B)

HuggingFace

33.7B総パラメータ、10B活性化の軽量版。MMStar 45.9、OCRBench 809達成。

MoEアクティブパラメータ: 10B
VRAM70GB

GGUFファイルは登録されていません

DeepSeek-VL2-Small(161B)

HuggingFace

161B総パラメータ、28B活性化の中型版。

MoEアクティブパラメータ: 28B
VRAM350GB

GGUFファイルは登録されていません

DeepSeek-VL2(275B)

HuggingFace

275B総パラメータ、45B活性化のフルサイズ版。

MoEアクティブパラメータ: 45B
VRAM600GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-VL2