Janus
ファインチューニングofficialmultimodalimage-generationimage-understandingunifiedopen-source
DeepSeek AIの統合マルチモーダルモデル。画像理解と画像生成を単一モデルで実現。2024年10月にJanus公開、2025年1月にJanus-Pro公開。分離型ビジュアルエンコーディング(理解: SigLIP-L、生成: VQトークナイザー)を採用。Janus-Pro-7BはGenEval 80.0%でDALL-E 3(67%)を上回る。MITライセンス。
ベンチマーク
geneval-pro-7b
80
dpg-bench-pro-7b
84.2
mmbench-pro-7b
79.2
ソース: https://arxiv.org/abs/2501.17811
技術仕様
アーキテクチャ
Unified multimodal Transformer, Decoupled visual encoding, Understanding: SigLIP-L vision encoder (384x384), Generation: VQ tokenizer (downsample rate 16)
パラメータバリエーション
関連モデル
DeepSeek-LLM
4 バリエーション
DeepSeek-Coder
7 バリエーション
DeepSeekMoE
2 バリエーション
DeepSeek-Math
3 バリエーション
DeepSeek-VL
2 バリエーション
DeepSeek-V2
4 バリエーション
DeepSeek-Coder-V2
4 バリエーション
DeepSeek-Prover
1 バリエーション
DeepSeek-V2.5
1 バリエーション
DeepSeek-V3
2 バリエーション
DeepSeek-VL2
3 バリエーション
DeepSeek-R1
8 バリエーション
DeepSeek-R1-0528
1 バリエーション
DeepSeek-V3.1
1 バリエーション
DeepSeek-Prover-V2
2 バリエーション
DeepSeekMath-V2
1 バリエーション
DeepSeek-V3.2
1 バリエーション
家系図
現在のモデル: Janus