Mixtral 8x22B

ベースモデル
開発者
Mistral AI
ライセンス
Apache-2.0
リリース日
2024/4/17
コンテキスト長
65,536 トークン
対応言語
en, fr, it, de, es
知識カットオフ
2024-Q1
ベースモデル
mixtral-8x7b
officialtext-generationmoesparse-moefunction-callingmultilingualopen-source

Mistral AIの大型MoEモデル。2024年4月17日公開。8エキスパート×22B構成。総パラメータ141B、活性化39B。ネイティブ関数呼び出し、制約付き出力モード対応。ChatGPT 3.5をMMLUとWinoGrandeで上回る。65Kコンテキスト。

ベンチマーク

MMLU
77.8
HumanEval
45.1
MATH
44.6
hellaswag
88.5
gsm8k-maj8
90.8

ソース: https://mistral.ai/news/mixtral-8x22b

技術仕様

アーキテクチャ

Sparse MoE, 8 experts × 22B, Top-2 routing, Native function calling

パラメータバリエーション

Mixtral 8x22B v0.1(141B)

HuggingFace

ベースモデル。8エキスパート×22B構成。

MoEアクティブパラメータ: 39B
VRAM300GB

GGUFファイルは登録されていません

Mixtral 8x22B Instruct v0.1(141B)

HuggingFace

指示チューニング版。関数呼び出し対応。GSM8K 90.8%、MATH 44.6%達成。

MoEアクティブパラメータ: 39B
VRAM300GB

GGUFファイルは登録されていません

家系図

現在のモデル: Mixtral 8x22B