LLaMA 1

ベースモデル
開発者
Meta
ライセンス
Non-commercial Research License
リリース日
2023/2/24
コンテキスト長
2,048 トークン
トレーニングトークン
1.0T (7B/13B) / 1.4T (33B/65B)
対応言語
en

2023年2月24日公開。Metaの初代大規模言語モデル。公開データのみで学習し、LLaMA-13BがGPT-3 (175B)を多くのベンチマークで上回る効率性を実証。オープンソースLLM革命の起点となった歴史的モデル。Chinchillaスケーリング則に基づく「オーバー・トレーニング」アプローチを採用。

技術仕様

アーキテクチャ

Decoder-only Transformer (RMSNorm, SwiGLU, RoPE)

パラメータバリエーション

LLaMA 7B(6.7B)

軽量モデル。単一GPU推論が可能。1兆トークンで学習。

GGUFファイルは登録されていません

LLaMA 13B(13B)

GPT-3 (175B)を多くのベンチマークで上回る性能を実証。1兆トークンで学習。

GGUFファイルは登録されていません

LLaMA 33B(32.5B)

大規模モデル。1.4兆トークンで学習。30B表記も使用される。

GGUFファイルは登録されていません

LLaMA 65B(65.2B)

最大モデル。Chinchilla 70B相当の性能。1.4兆トークンで学習。

GGUFファイルは登録されていません

家系図

現在のモデル: LLaMA 1