(ChatGPT の応答から)
ChatGPT は,固定された巨大 GPU クラスターに依存。
応答の生成では,主に以下のリソースが使われる。
(1) 計算資源(Compute)
- GPU/TPU 上での行列演算が中心。
- Transformer の各層における Self-Attention や FFN の計算は,ほぼ「行列×行列」の演算で構成されている。
→ リソース使用の中核は,この線形代数計算の規模に比例。
(2) メモリ
- パラメータの保持
- アクティベーションの一時保持
- KVキャッシュ
生成中に保持される過去トークンのキー・バリュー行列
(3) 電力
- GPU はワット単位の電力を消費
- 推論では
「生成トークン数 × モデル規模」
に応じて電力消費が増える。
|