複雑系の要点は,「大数」の多数がつくる多様である。
Transformer では,「大数」が,
- 次元D,トークン数,計算アルゴリズム,複数レイア
- 厖大な学習材テクスト
で実現されている
前者の「大数」については,生成AI 技術者は,ひっくるめて「パラメータ数」と言い,「いまは兆単位の数だ」と言ったりしている。
その「パラメータ数」は,
- 次元数D
- 登録しているトークンの数
- 重み行列の数,重み行列の要素数 (これは D×D)
- レイア数
- その他
の内訳で見ると,どうなるか?
また,「厖大な学習材テクスト」は,トークン数で言うと,どのくらいなのか?
これを ChatGPT に質問してみた。
以下,ChatGPT の応答:
── ChatGPT ────────────────────
以下の2つについて、大まかな推量・見積もりをします:
- 「パラメータ数 何兆」の内訳(各構成要素の規模)
- 「学習テクスト全体のトークン数」の見積もり
対象とするのは、例えば **GPT-3(1750億パラメータ)やGPT-4(推定で1兆パラメータ前後)**と同等のモデルです。
1. 🔬 パラメータ数の内訳(大雑把な推定)
以下は典型的な大規模Transformerモデルの構成要素です。
| 項目 |
説明 |
パラメータ数の見積もり |
|
| 語彙埋め込み(Embedding) |
トークン語彙サイズ × 埋め込み次元D |
50,000 × 12,288 ≒ 6億 |
| Attention系(Q, K, V, O) |
各層ごとにQ, K, V, Oの4つの行列(D×D) |
4 × D² × 層数 ≒ 4 × (12,288)² × 96 ≒ 58億 |
| FFN系(FeedForward) |
各層の2層MLP(D → 4D → D) |
2 × D × 4D × 層数 ≒ 2 × 12,288 × 49,152 × 96 ≒ 1150億 |
| LayerNorm・他 |
比較的少ない(数百万) |
無視できる程度 |
| 出力プロジェクション |
埋め込みを語彙に戻す:D × VocabSize |
12,288 × 50,000 ≒ 6億 |
✳️ 合計イメージ(GPT-4相当モデル:D = 12,288, 層数 = 96)
| セクション |
推定パラメータ数 |
|
| Embedding層 |
約 6億 |
| Attention関係 |
約 60億 |
| FeedForward層 |
約 1100億 |
| 出力層 |
約 6億 |
| その他 |
微少(LayerNormなど) |
| 合計 |
約 1200〜1300億程度(GPT-3.5)
GPT-4の1兆はこれより数倍大きい構成 |
⚠️ GPT-4 の正確な構造は非公開ですが、「Mixture of <(MoE)」や「分岐型FeedForward」などで実質的なモデルサイズが1兆を超えると考えられています。
2. 📚 学習テキスト全体のトークン数(見積もり)
✅ GPT-3の場合(OpenAI論文からの公開情報)
- 使用テキスト:Books, Wikipedia, WebTextなどを合わせて 3000億トークン(= 300B tokens)
- 英語ベースで 1トークン ≒ 0.75語、または 1トークン ≒ 4バイト程度
✅ GPT-4の場合(非公開だが推定)
- GPT-4では 1兆〜10兆トークンのスケールが想定されています。
- 例えばGeminiやClaudeなどの競合も含め、現在のLMM(大規模マルチモーダルモデル)は、10兆トークン級で訓練されたと見られます。
🧮 補足:パラメータ数 vs. トークン数の比率感覚
- GPT-3:1750億パラメータで 3000億トークン学習(≒パラメータ数の2倍弱)
- GPT-4:1兆パラメータで 1兆〜10兆トークン学習(≒パラメータ数と同等〜10倍)
つまり、「1つのパラメータを学習するために、10トークン程度の例文が必要」という目安が使われることもあります。
🧠 まとめ図解(テキストベース)
🧠 Transformerのパラメータ分布(D = 12,288, L = 96 の場合)
|
| Embedding |
約 6億 |
(語彙数 × D) |
| Attention |
約 60億 |
(4D² × L) |
| FeedForward |
約1100億 |
(2×D×4D×L) |
| 出力層 |
約 6億 |
(D × 語彙数) |
|
| 合計 |
約1200〜1300億パラメータ |
|
📚 学習テキスト:
GPT-3 → 約 3000億トークン
GPT-4 → 推定 1兆〜10兆トークン
|