(ChatGPT の応答から)
(公開されている範囲で)
研究者やベンチマーク報告から分かる典型的なオーダーを挙げる。 (ChatGPT そのものの詳細は非公開だが,近似的な理解として):
(1) モデルサイズとメモリ
- GPT-3(175Bパラメータ)の場合,
単精度で ≈ 700 GB,
半精度で ≈ 350 GB
程度の重みが必要。
- 実際の推論では,各 GPU(例: A100 80GB)が複数台並列に使われる。
(2) トークン生成あたりの計算量
- 推定 FLOPs: 10¹¹〜10¹² FLOPs / トークン
(モデルサイズ依存)。
FLOPs: FLoating point number Operations Per Second
1秒間に浮動小数点演算が何回できるか
- GPT-3 級で,1 トークン ≈ 数百ミリ秒〜数秒
(GPU並列数に依存)。
(3) 消費電力
- A100 GPU: 1 枚あたり 400W〜500W。
- 大規模推論では数十〜数百枚を同時に利用。
- したがって,1 回の対話セッションでも 数kWh 規模の電力が消費される可能性がある。
(4) KVキャッシュのメモリ負荷
- 例: GPT-3 でコンテキスト長 2048,バッチ1の場合 ≈ 数 GB。
- 長文セッションではこの「文脈保持コスト」がリソース使用に直結。
|