DeepSeek
開発者: DeepSeek AI
2023年7月に梁文鋒によって設立された中国のAI企業DeepSeek AIが開発するLLMシリーズ。Mixture-of-Experts(MoE)アーキテクチャ、Multi-head Latent Attention(MLA)、効率的な学習技術において革新を先導。大幅に低いコストで主要なプロプライエタリモデルに匹敵する性能を達成。初代LLMから推論特化のR1、コード特化Coder、数学特化Math、マルチモーダルVLシリーズ、定理証明Proverまで多岐にわたるモデルを展開。
家系図
モデル一覧 (18)
DeepSeek-LLM
DeepSeek AIの初代LLM。2023年11月29日公開。LLaMAアーキテクチャを採用し、2兆トークン(英語+中国語)で学習。7Bと67Bの2サイズ展開。67BではGrouped-Query Attention(GQA)を採用し効率化。
DeepSeek-Coder
DeepSeek AIのコード特化LLM。2023年11月2日公開。2兆トークン(87%コード、13%自然言語)で学習。87プログラミング言語対応。Fill-in-the-Middle(FIM)学習でコード補完に対応。16Kコンテキスト。
DeepSeekMoE
DeepSeek AIのMixture-of-Experts(MoE)アーキテクチャ実証モデル。2024年1月11日公開。細粒度エキスパート分割と共有エキスパート分離という革新的技術を導入。16Bの総パラメータで27億のみ活性化し、7B Denseモデルに匹敵する性能を実現。後のV2、V3シリーズの基盤となるアーキテクチャ。
DeepSeek-Math
DeepSeek AIの数学特化LLM。2024年2月6日公開。DeepSeek-Coder-v1.5 7Bから初期化し、追加5000億トークンで学習。Group Relative Policy Optimization(GRPO)という新しい強化学習手法を導入。ツール使用時にMATH約60%達成、競技数学でGemini-Ultra/GPT-4に迫る性能。
DeepSeek-VL
DeepSeek AIのVision-Languageモデル。2024年3月11日公開。最大1024x1024ピクセルの画像入力に対応。1.3Bと7Bの2サイズ展開。画像理解、OCR、視覚的質問応答などのマルチモーダルタスクに対応。
DeepSeek-V2
DeepSeek AIの第2世代MoE言語モデル。2024年5月6日公開。革新的なMulti-head Latent Attention(MLA)でKVキャッシュを93.3%圧縮。128Kコンテキスト、8.1兆トークン学習。236Bモデルは210億活性化パラメータでDeepSeek-67B比5.76倍の生成スループット、学習コスト42.5%削減を実現。
DeepSeek-Coder-V2
DeepSeek AIの第2世代コードMoEモデル。2024年6月17日公開。DeepSeek-V2ベースに追加6兆トークン(60%コード、10%数学、30%自然言語)で学習。338プログラミング言語対応、128Kコンテキスト。HumanEval 90.2%、MATH 75.7%達成。
DeepSeek-Prover
DeepSeek AIの定理証明器。2024年8月15日公開(V1.5)。Lean 4形式言語による数学定理の自動証明に特化。7Bパラメータで高度な形式証明能力を実現。
DeepSeek-V2.5
DeepSeek AIのV2.5統合モデル。2024年9月6日公開。DeepSeek-V2-0628とDeepSeek-Coder-V2-0724の長所を統合。汎用言語能力とコーディング能力を両立。
DeepSeek-V3
DeepSeek AIの第3世代MoE言語モデル。2024年12月26日公開。671B総パラメータ(+14B MTP)、37B活性化。14.8兆トークン学習、278.8万H800 GPUh(約600万ドル)という低コストで主要プロプライエタリモデル匹敵の性能。補助損失なしロードバランシング、Multi-Token Prediction(MTP)、FP8混合精度学習を導入。MITライセンスでオープンソース化。
DeepSeek-VL2
DeepSeek AIの第2世代Vision-Language MoEモデル。2024年12月13日公開。384x384基本解像度で動的タイリング対応。Tiny(33.7B/10B活性化)、Small(161B/28B活性化)、フル(275B/45B活性化)の3サイズ展開。OCR、文書理解、チャート分析に強い。
DeepSeek-R1
DeepSeek AIの推論特化モデル。2025年1月20日公開。R1-Zeroは純粋RL学習のみで推論能力を検証した初のモデル。R1はコールドスタートデータ+RLで可読性向上。AIME 2024で79.8% Pass@1、MATH-500で97.3%達成。6種類の蒸留モデル(Qwen/Llamaベース)も提供。MITライセンス。
Janus
DeepSeek AIの統合マルチモーダルモデル。画像理解と画像生成を単一モデルで実現。2024年10月にJanus公開、2025年1月にJanus-Pro公開。分離型ビジュアルエンコーディング(理解: SigLIP-L、生成: VQトークナイザー)を採用。Janus-Pro-7BはGenEval 80.0%でDALL-E 3(67%)を上回る。MITライセンス。
DeepSeek-R1-0528
DeepSeek-R1のアップグレード版。2025年5月28日公開。より強力な推論深度(平均23Kトークン/質問)、ハルシネーション削減、システムプロンプト対応、JSON出力対応、関数呼び出し対応。エージェント型AIユースケースに最適化。
DeepSeek-V3.1
DeepSeek AIのV3.1ハイブリッドモデル。2025年8月公開。推論(R1風)と直接回答(V3風)を切り替え可能なハイブリッド思考モード搭載。ツール呼び出しとエージェント機能を強化。128Kコンテキスト。
DeepSeek-Prover-V2
DeepSeek AIの第2世代定理証明器。2025年4月公開。Lean 4形式言語対応。163,840トークンの超長コンテキスト。7Bと671Bの2サイズ展開。MiniF2F 88.9%達成。MITライセンス。
DeepSeekMath-V2
DeepSeek AIの第2世代数学推論モデル。2025年11月27日公開。自己検証型数学推論を導入。IMO 2025金メダル(6問中5問解決)、CMO 2024金メダル、Putnam 2024で118/120点(人間最高90点)を達成。685Bパラメータ。Apache 2.0ライセンス。
DeepSeek-V3.2
DeepSeek AIのV3.2モデル。2025年12月1日公開。DeepSeek Sparse Attention(DSA)を導入し、より効率的なアテンション機構を実現。GPT-5/Gemini-3.0-Pro相当の性能。IMO 2025、IOI 2025で金メダル達成。685Bパラメータ。MITライセンス。