Up 自己参照・再帰 作成: 2025-06-28
更新: 2025-06-28


    Transformer は,厖大な数のパラメータの構成物である。
    この厖大な数のパラメータは,「自己参照・再帰」をするためのものである。
    Transformer の設計思想は,「自己参照・再帰」に対する全幅の信頼である。
    調節がかかりそうなところに,片っ端にパラメータを投入する。

    翻って,Transformer のアルゴリズムは,重みや学習させる係数を取っ払うことで,その骨格が現れ,意味がわかるようになる。
    例えば Self-Attention では,これの意味を探ろうとして,つぎの図式を 試したわけである:

             ( Self-Attention )
        ┌──────┿──────┐
        ↓      ↓      ↓
        x_i      x_i      x_i
        └──┬───┘      │
           ↓          │
     α_i = sim( x_i ; x_1, ‥‥, x_m )  │
           │          │
           └───┬──────┘
        z_i = ( Σα_ik x_k1, ‥‥ Σα_ik x_kD )

      Self-Attention がしていること