Janus

ファインチューニング

開発者

DeepSeek AI

ライセンス

DeepSeek Model License

リリース日

2024/10/17

コンテキスト長

4,096 トークン

対応言語

en, zh

知識カットオフ

2025-Q1

ベースモデル

deepseek-llm

officialmultimodalimage-generationimage-understandingunifiedopen-source

DeepSeek AIの統合マルチモーダルモデル。画像理解と画像生成を単一モデルで実現。2024年10月にJanus公開、2025年1月にJanus-Pro公開。分離型ビジュアルエンコーディング（理解: SigLIP-L、生成: VQトークナイザー）を採用。Janus-Pro-7BはGenEval 80.0%でDALL-E 3（67%）を上回る。

HuggingFace 論文 GitHub

ベンチマーク

geneval-pro-7b

80

dpg-bench-pro-7b

84.2

mmbench-pro-7b

79.2

ソース: https://arxiv.org/abs/2501.17811

技術仕様

アーキテクチャ

Unified multimodal Transformer, Decoupled visual encoding, Understanding: SigLIP-L vision encoder (384x384), Generation: VQ tokenizer (downsample rate 16)

パラメータバリエーション

Janus-1.3B(1.3B)

HuggingFace

1.3B軽量版。画像理解と生成の両方に対応。

VRAM1GB

GGUFファイルは登録されていません

Janus-Pro-1B(1.5B)

HuggingFace

1B Pro軽量版。2025年1月公開。

VRAM1GB

GGUFファイルは登録されていません

Janus-Pro-7B(7B)

HuggingFace

7B Proフルサイズ版。GenEval 80.0%でDALL-E 3を上回る。

VRAM4GB

GGUFファイルは登録されていません

家系図

現在のモデル: Janus

ベース

FT

派生

表示中

Janus

ベンチマーク

技術仕様

アーキテクチャ

パラメータバリエーション

Janus-1.3B(1.3B)

Janus-Pro-1B(1.5B)

Janus-Pro-7B(7B)

関連モデル

DeepSeek-LLM

DeepSeek-Coder

DeepSeekMoE

DeepSeek-Math

DeepSeek-VL

DeepSeek-V2

DeepSeek-Coder-V2

DeepSeek-Prover

DeepSeek-V2.5

DeepSeek-V3

DeepSeek-VL2

DeepSeek-R1

DeepSeek-R1-0528

DeepSeek-V3.1

DeepSeek-Prover-V2

DeepSeekMath-V2

DeepSeek-V3.2

家系図