Mixtral 8x22B
ベースモデルofficialtext-generationmoesparse-moefunction-callingmultilingualopen-source
Mistral AIの大型MoEモデル。2024年4月17日公開。8エキスパート×22B構成。総パラメータ141B、活性化39B。ネイティブ関数呼び出し、制約付き出力モード対応。ChatGPT 3.5をMMLUとWinoGrandeで上回る。65Kコンテキスト。
ベンチマーク
MMLU
77.8
HumanEval
45.1
MATH
44.6
hellaswag
88.5
gsm8k-maj8
90.8
ソース: https://mistral.ai/news/mixtral-8x22b
技術仕様
アーキテクチャ
Sparse MoE, 8 experts × 22B, Top-2 routing, Native function calling
パラメータバリエーション
Mixtral 8x22B v0.1(141B)
HuggingFaceベースモデル。8エキスパート×22B構成。
MoEアクティブパラメータ: 39B
VRAM300GB
GGUFファイルは登録されていません
Mixtral 8x22B Instruct v0.1(141B)
HuggingFace指示チューニング版。関数呼び出し対応。GSM8K 90.8%、MATH 44.6%達成。
MoEアクティブパラメータ: 39B
VRAM300GB
GGUFファイルは登録されていません
関連モデル
Mistral 7B
6 バリエーション
Mixtral 8x7B
2 バリエーション
Mistral Large
2 バリエーション
Mistral Small
4 バリエーション
Mistral Medium 3
2 バリエーション
Codestral
3 バリエーション
Codestral Mamba
1 バリエーション
Mathstral
1 バリエーション
Mistral NeMo
2 バリエーション
Pixtral 12B
1 バリエーション
Ministral
2 バリエーション
Pixtral Large
1 バリエーション
Mistral Saba
1 バリエーション
Magistral
2 バリエーション
Voxtral
2 バリエーション
Devstral
4 バリエーション
Mistral Large 3
6 バリエーション
家系図
現在のモデル: Mixtral 8x22B