Mistral 7B

ベースモデル
開発者
Mistral AI
ライセンス
Apache-2.0
リリース日
2023/9/27
コンテキスト長
8,192 トークン
対応言語
en
知識カットオフ
2023
officialtext-generationsliding-window-attentiongqaopen-source

Mistral AIの初代モデル。2023年9月27日公開。Sliding Window Attention(SWA)とGrouped-Query Attention(GQA)を採用し効率的な推論を実現。LLaMA 2 13Bを全ベンチマークで上回り、LLaMA 34Bに匹敵する性能。8Kコンテキスト。Apache 2.0ライセンス。

ベンチマーク

MMLU
60.1
hellaswag
81.3
arc-c
55.5
winogrande
75.3

ソース: https://mistral.ai/news/announcing-mistral-7b/

技術仕様

アーキテクチャ

Dense Transformer, Sliding Window Attention (SWA), Grouped-Query Attention (GQA), Byte-fallback BPE tokenizer, Vocab 32K

プロンプトテンプレート

フォーマット: mistral-instruct
ユーザープロンプト:
<s>[INST] {user_message} [/INST]
アシスタントプロンプト:
{assistant_response}</s>
ストップトークン:
</s>

パラメータバリエーション

Mistral 7B v0.1(7B)

HuggingFace

初期リリース版。7.3Bパラメータ。

VRAM17GB

GGUFファイルは登録されていません

Mistral 7B Instruct v0.1(7B)

HuggingFace

v0.1指示チューニング版。

VRAM17GB

GGUFファイルは登録されていません

Mistral 7B v0.2(7B)

HuggingFace

改良版。32Kコンテキスト対応。

VRAM17GB

GGUFファイルは登録されていません

Mistral 7B Instruct v0.2(7B)

HuggingFace

v0.2指示チューニング版。32Kコンテキスト。

VRAM17GB

GGUFファイルは登録されていません

Mistral 7B v0.3(7B)

HuggingFace

関数呼び出し対応版。拡張語彙。

VRAM17GB

GGUFファイルは登録されていません

Mistral 7B Instruct v0.3(7B)

HuggingFace

v0.3指示チューニング版。関数呼び出し対応。

VRAM17GB

GGUFファイルは登録されていません

家系図

現在のモデル: Mistral 7B