Mixtral 8x7B

ベースモデル
開発者
Mistral AI
ライセンス
Apache-2.0
リリース日
2023/12/11
コンテキスト長
32,768 トークン
対応言語
en, fr, it, de, es
知識カットオフ
2023
ベースモデル
mistral-7b
officialtext-generationmoesparse-moemultilingualopen-source

Mistral AIの初のMoEモデル。2023年12月11日公開。8エキスパート構成でトークンごとに2つを選択(Top-2ルーティング)。総パラメータ47B、活性化13B。LLaMA 2 70Bを上回り、GPT-3.5に匹敵。32Kコンテキスト。英語、フランス語、イタリア語、ドイツ語、スペイン語対応。

ベンチマーク

MMLU
70.6
hellaswag
84.4
arc-c
66.4
gsm8k
74.4

ソース: https://arxiv.org/abs/2401.04088

技術仕様

アーキテクチャ

Sparse MoE, 8 experts per layer, Top-2 routing, SWA, GQA

パラメータバリエーション

Mixtral 8x7B v0.1(47B)

HuggingFace

ベースモデル。8エキスパート×7B構成。

MoEアクティブパラメータ: 13B
VRAM100GB

GGUFファイルは登録されていません

Mixtral 8x7B Instruct v0.1(47B)

HuggingFace

指示チューニング版。

MoEアクティブパラメータ: 13B
VRAM100GB

GGUFファイルは登録されていません

家系図

現在のモデル: Mixtral 8x7B