Up 大数 作成: 2025-05-21
更新: 2025-05-21


    複雑系の要点は,「大数」の多数がつくる多様である。

    Transformer では,「大数」が,
    1. 次元D,トークン数,計算アルゴリズム,複数レイア
    2. 厖大な学習材テクスト
    で実現されている

    前者の「大数」については,生成AI 技術者は,ひっくるめて「パラメータ数」と言い,「いまは兆単位の数だ」と言ったりしている。

    その「パラメータ数」は,
    • 次元数D
    • 登録しているトークンの数
    • 重み行列の数,重み行列の要素数 (これは D×D)
    • レイア数
    • その他
    の内訳で見ると,どうなるか?

    また,「厖大な学習材テクスト」は,トークン数で言うと,どのくらいなのか?

    これを ChatGPT に質問してみた。
    以下,ChatGPT の応答:


    ── ChatGPT ────────────────────
    以下の2つについて、大まかな推量・見積もりをします:
    1. 「パラメータ数 何兆」の内訳(各構成要素の規模)
    2. 「学習テクスト全体のトークン数」の見積もり

    対象とするのは、例えば **GPT-3(1750億パラメータ)やGPT-4(推定で1兆パラメータ前後)**と同等のモデルです。

    1. 🔬 パラメータ数の内訳(大雑把な推定)

    以下は典型的な大規模Transformerモデルの構成要素です。
    項目 説明 パラメータ数の見積もり

    語彙埋め込み(Embedding) トークン語彙サイズ × 埋め込み次元D 50,000 × 12,288 ≒ 6億
    Attention系(Q, K, V, O) 各層ごとにQ, K, V, Oの4つの行列(D×D) 4 × D² × 層数 ≒ 4 × (12,288)² × 96 ≒ 58億
    FFN系(FeedForward) 各層の2層MLP(D → 4D → D) 2 × D × 4D × 層数 ≒ 2 × 12,288 × 49,152 × 96 ≒ 1150億
    LayerNorm・他 比較的少ない(数百万) 無視できる程度
    出力プロジェクション 埋め込みを語彙に戻す:D × VocabSize 12,288 × 50,000 ≒ 6億

    ✳️ 合計イメージ(GPT-4相当モデル:D = 12,288, 層数 = 96)
    セクション 推定パラメータ数

    Embedding層 約 6億
    Attention関係 約 60億
    FeedForward層 約 1100億
    出力層 約 6億
    その他 微少(LayerNormなど)
    合計 約 1200〜1300億程度(GPT-3.5)
    GPT-4の1兆はこれより数倍大きい構成

      ⚠️ GPT-4 の正確な構造は非公開ですが、「Mixture of
      <(MoE)」や「分岐型FeedForward」などで実質的なモデルサイズが1兆を超えると考えられています。


    2. 📚 学習テキスト全体のトークン数(見積もり)
    ✅ GPT-3の場合(OpenAI論文からの公開情報)
    • 使用テキスト:Books, Wikipedia, WebTextなどを合わせて 3000億トークン(= 300B tokens)
    • 英語ベースで 1トークン ≒ 0.75語、または 1トークン ≒ 4バイト程度

    ✅ GPT-4の場合(非公開だが推定)
    • GPT-4では 1兆〜10兆トークンのスケールが想定されています。
    • 例えばGeminiやClaudeなどの競合も含め、現在のLMM(大規模マルチモーダルモデル)は、10兆トークン級で訓練されたと見られます。

    🧮 補足:パラメータ数 vs. トークン数の比率感覚
    • GPT-3:1750億パラメータで 3000億トークン学習(≒パラメータ数の2倍弱)
    • GPT-4:1兆パラメータで 1兆〜10兆トークン学習(≒パラメータ数と同等〜10倍)

    つまり、「1つのパラメータを学習するために、10トークン程度の例文が必要」という目安が使われることもあります。

    🧠 まとめ図解(テキストベース)
    🧠 Transformerのパラメータ分布(D = 12,288, L = 96 の場合)

    Embedding 約 6億 (語彙数 × D)
    Attention 約 60億 (4D² × L)
    FeedForward 約1100億 (2×D×4D×L)
    出力層 約 6億 (D × 語彙数)

    合計 約1200〜1300億パラメータ



    📚 学習テキスト:
      GPT-3 → 約 3000億トークン
      GPT-4 → 推定 1兆〜10兆トークン