ShieldGemma
指示チューニングofficialsafetycontent-moderationclassifier
2024年7月31日公開。Gemma 2ベースのテキスト安全性分類モデル。LLM-as-a-judge手法採用。4カテゴリ分類:性的コンテンツ、危険なコンテンツ、ヘイトスピーチ、ハラスメント。入力・出力両方の安全性評価が可能。
技術仕様
アーキテクチャ
Gemma 2 base, LLM-as-a-judge
パラメータバリエーション
関連モデル
家系図
現在のモデル: ShieldGemma