Phi-2

ベースモデル
開発者
Microsoft Research
ライセンス
MIT
リリース日
2023/12/12
トレーニングトークン
1.4T
対応言語
en
知識カットオフ
2023
ベースモデル
phi-1
officialtext-generationknowledge-transferefficientopen-source

2023年12月公開(Microsoft Ignite 2023)。2.7Bパラメータ。1.4兆トークンで学習。知識転移技術によりPhi-1.5の知識を継承。Mistral 7B、LLaMA 2 13Bを多くのベンチマークで上回り、LLaMA-2-70Bを多段階推論タスクで上回る。

ベンチマーク

MMLU
56.7
HumanEval
47.6
hellaswag
73.1
arc-c
61.1
winogrande
74.4
gsm8k
57.2
bbh
59.3

ソース: https://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/

技術仕様

アーキテクチャ

Dense decoder-only Transformer, 32 layers, hidden size 2560, Knowledge transfer from Phi-1.5

プロンプトテンプレート

フォーマット: phi-2
ユーザープロンプト:
Instruct: {user_message}
Output:
ストップトークン:

パラメータバリエーション

Phi-2(2.7B)

HuggingFace

2.7Bで7B〜13Bモデルに匹敵。MMLU 56.7%、GSM8K 57.2%達成。

VRAM6GB

GGUFファイルは登録されていません

家系図

現在のモデル: Phi-2