Janus

ファインチューニング
開発者
DeepSeek AI
ライセンス
MIT
リリース日
2024/10/1
対応言語
en, zh
知識カットオフ
2025-Q1
ベースモデル
deepseek-llm
officialmultimodalimage-generationimage-understandingunifiedopen-source

DeepSeek AIの統合マルチモーダルモデル。画像理解と画像生成を単一モデルで実現。2024年10月にJanus公開、2025年1月にJanus-Pro公開。分離型ビジュアルエンコーディング(理解: SigLIP-L、生成: VQトークナイザー)を採用。Janus-Pro-7BはGenEval 80.0%でDALL-E 3(67%)を上回る。MITライセンス。

ベンチマーク

geneval-pro-7b
80
dpg-bench-pro-7b
84.2
mmbench-pro-7b
79.2

ソース: https://arxiv.org/abs/2501.17811

技術仕様

アーキテクチャ

Unified multimodal Transformer, Decoupled visual encoding, Understanding: SigLIP-L vision encoder (384x384), Generation: VQ tokenizer (downsample rate 16)

パラメータバリエーション

Janus-1.3B(1.3B)

HuggingFace

1.3B軽量版。画像理解と生成の両方に対応。

VRAM4GB

GGUFファイルは登録されていません

Janus-Pro-1B(1B)

HuggingFace

1B Pro軽量版。2025年1月公開。

VRAM3GB

GGUFファイルは登録されていません

Janus-Pro-7B(7B)

HuggingFace

7B Proフルサイズ版。GenEval 80.0%でDALL-E 3を上回る。

VRAM17GB

GGUFファイルは登録されていません

家系図

現在のモデル: Janus