Gemma 2
ベースモデルofficialtext-generationinstruction-tunedknowledge-distillation
2024年6月27日公開。Gemmaの後継モデル。13T(27B)/8T(9B)トークン学習。Interleaved Local-Global Sliding Window Attention、Logit Soft-capping、GQA採用。2B/9Bは知識蒸留で学習。
ベンチマーク
MMLU
75.2
HumanEval
51.8
MATH
46.6
gsm8k
74
arc-c
71.4
ソース: https://ai.google.dev/gemma/docs/model_card_2
技術仕様
アーキテクチャ
Decoder-only Transformer, Interleaved Local-Global Sliding Window Attention, Logit Soft-capping, GQA, RoPE, SwiGLU, RMSNorm, Vocab 256K
プロンプトテンプレート
フォーマット: gemma
ユーザープロンプト:
<start_of_turn>user
{user_message}<end_of_turn>アシスタントプロンプト:
<start_of_turn>model
{assistant_response}<end_of_turn>ストップトークン:
<end_of_turn><eos>パラメータバリエーション
関連モデル
家系図
現在のモデル: Gemma 2