Spirit-LM
ファインチューニングofficialmultilingual
Metaが開発したマルチモーダル言語モデル。テキストと音声を自由に混在して処理可能。Llama 2をベースに、音声トークンを追加学習することで、テキストから音声、音声からテキストへのシームレスな変換を実現。表現豊かな音声生成が可能。
技術仕様
アーキテクチャ
Transformer (Multimodal)
パラメータバリエーション
関連モデル
LLaMA 1
4 バリエーション
Llama 2
6 バリエーション
Code Llama
4 バリエーション
Llama Guard 1
1 バリエーション
Swallow (Llama 2)
3 バリエーション
Llama 3
4 バリエーション
Llama Guard 2
1 バリエーション
Swallow (Llama 3)
2 バリエーション
ELYZA Japanese
1 バリエーション
Llama 3.1
6 バリエーション
Llama Guard 3
3 バリエーション
Swallow (Llama 3.1)
2 バリエーション
DeepSeek-R1-Distill-Llama
2 バリエーション
Llama 3.2
8 バリエーション
Llama 3.3
1 バリエーション
Swallow (Llama 3.3)
1 バリエーション
Llama 4
3 バリエーション
Llama Guard 4
1 バリエーション
家系図
現在のモデル: Spirit-LM