Mistral 7B
ベースモデルofficialtext-generationsliding-window-attentiongqaopen-source
Mistral AIの初代モデル。2023年9月27日公開。Sliding Window Attention(SWA)とGrouped-Query Attention(GQA)を採用し効率的な推論を実現。LLaMA 2 13Bを全ベンチマークで上回り、LLaMA 34Bに匹敵する性能。8Kコンテキスト。Apache 2.0ライセンス。
ベンチマーク
MMLU
60.1
hellaswag
81.3
arc-c
55.5
winogrande
75.3
ソース: https://mistral.ai/news/announcing-mistral-7b/
技術仕様
アーキテクチャ
Dense Transformer, Sliding Window Attention (SWA), Grouped-Query Attention (GQA), Byte-fallback BPE tokenizer, Vocab 32K
プロンプトテンプレート
フォーマット: mistral-instruct
ユーザープロンプト:
<s>[INST] {user_message} [/INST]アシスタントプロンプト:
{assistant_response}</s>ストップトークン:
</s>パラメータバリエーション
関連モデル
Mixtral 8x7B
2 バリエーション
Mixtral 8x22B
2 バリエーション
Mistral Large
2 バリエーション
Mistral Small
4 バリエーション
Mistral Medium 3
2 バリエーション
Codestral
3 バリエーション
Codestral Mamba
1 バリエーション
Mathstral
1 バリエーション
Mistral NeMo
2 バリエーション
Pixtral 12B
1 バリエーション
Ministral
2 バリエーション
Pixtral Large
1 バリエーション
Mistral Saba
1 バリエーション
Magistral
2 バリエーション
Voxtral
2 バリエーション
Devstral
4 バリエーション
Mistral Large 3
6 バリエーション
家系図
現在のモデル: Mistral 7B