Mixtral 8x7B
ベースモデルofficialtext-generationmoesparse-moemultilingualopen-source
Mistral AIの初のMoEモデル。2023年12月11日公開。8エキスパート構成でトークンごとに2つを選択(Top-2ルーティング)。総パラメータ47B、活性化13B。LLaMA 2 70Bを上回り、GPT-3.5に匹敵。32Kコンテキスト。英語、フランス語、イタリア語、ドイツ語、スペイン語対応。
ベンチマーク
MMLU
70.6
hellaswag
84.4
arc-c
66.4
gsm8k
74.4
ソース: https://arxiv.org/abs/2401.04088
技術仕様
アーキテクチャ
Sparse MoE, 8 experts per layer, Top-2 routing, SWA, GQA
パラメータバリエーション
関連モデル
Mistral 7B
6 バリエーション
Mixtral 8x22B
2 バリエーション
Mistral Large
2 バリエーション
Mistral Small
4 バリエーション
Mistral Medium 3
2 バリエーション
Codestral
3 バリエーション
Codestral Mamba
1 バリエーション
Mathstral
1 バリエーション
Mistral NeMo
2 バリエーション
Pixtral 12B
1 バリエーション
Ministral
2 バリエーション
Pixtral Large
1 バリエーション
Mistral Saba
1 バリエーション
Magistral
2 バリエーション
Voxtral
2 バリエーション
Devstral
4 バリエーション
Mistral Large 3
6 バリエーション
家系図
現在のモデル: Mixtral 8x7B