Phi-2
ベースモデルofficialtext-generationknowledge-transferefficientopen-source
2023年12月公開(Microsoft Ignite 2023)。2.7Bパラメータ。1.4兆トークンで学習。知識転移技術によりPhi-1.5の知識を継承。Mistral 7B、LLaMA 2 13Bを多くのベンチマークで上回り、LLaMA-2-70Bを多段階推論タスクで上回る。
ベンチマーク
MMLU
56.7
HumanEval
47.6
hellaswag
73.1
arc-c
61.1
winogrande
74.4
gsm8k
57.2
bbh
59.3
ソース: https://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/
技術仕様
アーキテクチャ
Dense decoder-only Transformer, 32 layers, hidden size 2560, Knowledge transfer from Phi-1.5
プロンプトテンプレート
フォーマット: phi-2
ユーザープロンプト:
Instruct: {user_message}
Output:ストップトークン:
パラメータバリエーション
関連モデル
家系図
現在のモデル: Phi-2