Mixtral 8x7B

ベースモデル

開発者

Mistral AI

ライセンス

Apache-2.0

リリース日

2023/12/11

コンテキスト長

32,768 トークン

対応言語

en, fr, it, de, es

知識カットオフ

2023

ベースモデル

mistral-7b

officialtext-generationmoesparse-moemultilingualopen-source

Mistral AIの初のMoEモデル。2023年12月11日公開。8エキスパート構成でトークンごとに2つを選択（Top-2ルーティング）。総パラメータ47B、活性化13B。LLaMA 2 70Bを上回り、GPT-3.5に匹敵。32Kコンテキスト。英語、フランス語、イタリア語、ドイツ語、スペイン語対応。

HuggingFace 論文公式サイト

ベンチマーク

MMLU

70.6

hellaswag

84.4

arc-c

66.4

gsm8k

74.4

ソース: https://arxiv.org/abs/2401.04088

技術仕様

アーキテクチャ

Sparse MoE, 8 experts per layer, Top-2 routing, SWA, GQA

パラメータバリエーション

Mixtral 8x7B v0.1(47B)

HuggingFace

ベースモデル。8エキスパート×7B構成。

MoEアクティブパラメータ: 13B

VRAM100GB

GGUFファイルは登録されていません

Mixtral 8x7B Instruct v0.1(47B)

HuggingFace

指示チューニング版。

MoEアクティブパラメータ: 13B

VRAM100GB

GGUFファイルは登録されていません

家系図

現在のモデル: Mixtral 8x7B

ベース

FT

派生

表示中

Mixtral 8x7B

ベンチマーク

技術仕様

アーキテクチャ

パラメータバリエーション

Mixtral 8x7B v0.1(47B)

Mixtral 8x7B Instruct v0.1(47B)

関連モデル

Mistral 7B

Mixtral 8x22B

Mistral Large

Mistral Small

Mistral Medium 3

Codestral

Codestral Mamba

Mathstral

Mistral NeMo

Pixtral 12B

Ministral

Pixtral Large

Mistral Saba

Magistral

Voxtral

Devstral

Mistral Large 3

家系図