Spirit-LM

ファインチューニング
開発者
Meta
ライセンス
Llama 2 Community License
リリース日
2024/2/8
対応言語
en
ベースモデル
meta-llama/Llama-2-7b
officialmultilingual

Metaが開発したマルチモーダル言語モデル。テキストと音声を自由に混在して処理可能。Llama 2をベースに、音声トークンを追加学習することで、テキストから音声、音声からテキストへのシームレスな変換を実現。表現豊かな音声生成が可能。

技術仕様

アーキテクチャ

Transformer (Multimodal)

パラメータバリエーション

Spirit-LM Base 7B(7B)

HuggingFace

テキストと音声の相互変換が可能なマルチモーダルモデル。セマンティック音声トークンを使用。

GGUFファイルは登録されていません

Spirit-LM Expressive 7B(7B)

HuggingFace

表現豊かな音声生成に特化したバリエーション。ピッチやスタイルトークンを使用。

GGUFファイルは登録されていません

家系図

現在のモデル: Spirit-LM