Gemma
開発者: Google DeepMind
Google DeepMindが開発するオープンウェイトLLMシリーズ。ラテン語で「宝石」を意味するGemmaは、2024年2月の初代モデルから2025年のGemma 3世代まで急速に進化。テキスト生成のコアモデル(Gemma→Gemma 2→Gemma 3→Gemma 3n)に加え、コーディング(CodeGemma)、翻訳(TranslateGemma)、埋め込み(EmbeddingGemma)、関数呼び出し(FunctionGemma)、安全性評価(ShieldGemma)など専門特化モデルを展開。140+言語対応、128Kコンテキスト、モバイル・エッジ向け最適化を実現。
家系図
モデル一覧 (10)
Gemma
2024年2月21日公開。Google DeepMindの初代オープンウェイトモデル。6T(7B)/2T(2B)トークンで学習。8Kコンテキスト対応。RoPE、GeGLU、RMSNormを採用。Multi-Query Attention(2B)/Multi-Head Attention(7B)を使用。
CodeGemma
2024年4月9日公開(v1.1は5月)。Gemmaベースのコーディング特化モデル。Fill-in-the-Middle(FIM)学習(80% FIM率、50-50 PSM/SPM)採用。Dependency Graph-based Packing、Unit Test-based Lexical Packingで効率化。C++、C#、Go、Java、JavaScript、Kotlin、Python、Rust等対応。
Gemma 2
2024年6月27日公開。Gemmaの後継モデル。13T(27B)/8T(9B)トークン学習。Interleaved Local-Global Sliding Window Attention、Logit Soft-capping、GQA採用。2B/9Bは知識蒸留で学習。
ShieldGemma
2024年7月31日公開。Gemma 2ベースのテキスト安全性分類モデル。LLM-as-a-judge手法採用。4カテゴリ分類:性的コンテンツ、危険なコンテンツ、ヘイトスピーチ、ハラスメント。入力・出力両方の安全性評価が可能。
Gemma 3
2025年3月12日公開。128Kコンテキスト(4B以上)、140+言語対応。SigLIP Vision Encoder(896x896)搭載でマルチモーダル対応(4B以上)。5:1 Local-to-Global Attention、QAT対応チェックポイント提供。LMArena Elo 1338達成。
ShieldGemma 2
2025年3月12日公開。Gemma 3 4Bベースの画像安全性分類モデル。SigLIP vision encoder搭載。3カテゴリ分類:危険なコンテンツ、性的コンテンツ、暴力。テキスト版ShieldGemmaの画像対応進化版。
TranslateGemma
2025年1月14日公開。Gemma 3ベースの翻訳特化モデル。55言語ペア対応。SigLIP vision encoder搭載で画像翻訳にも対応。4.3B SFT + 10.2M RLトークンでファインチューニング。12Bモデルは27B Gemma 3ベースラインを上回る翻訳性能を達成。
Gemma 3n
2025年6月26日公開(プレビュー5月20日)。モバイルファースト設計のマルチモーダルモデル。MatFormer(Matryoshka Transformer)採用でエラスティック推論を実現。Per-Layer Embeddings(PLE)でCPU効率化。テキスト+画像+音声+動画に対応。140+言語(テキスト)、35言語(マルチモーダル)対応。10B未満で初のLMArena Elo 1300+達成。Pixelデバイスで60FPS動画処理可能。
FunctionGemma
2025年8月14日公開。Gemma 3ベースの関数呼び出し特化モデル。ツール使用・API呼び出しに最適化。270Mパラメータの超軽量設計でエッジデバイスでの関数呼び出しを実現。
EmbeddingGemma
2025年9月4日公開。Gemma 3ベースの埋め込みモデル。MTEB Multilingual 500M以下カテゴリで1位。768次元(Matryoshka: 128-768)の埋め込みベクトル出力。QAT(Quantization-Aware Training)で200MB未満のRAMで動作。100+言語対応。オンデバイス検索・RAGに最適。