ChatGPT : RLHF (Reinforcement Learning from Human Feedback)

RLHF (Reinforcement Learning from Human Feedback)

作成: 2025-05-07
更新: 2025-05-07

つぎの強化学習：

Think IT から引用：

実はGPT-3.5とChatGPTの間にInstructGPTというものがあります。これは言語モデルのGPT-3.5シリーズに対し、人間の指示(Instruction)に従って人間好みの無害な出力を得るように調整したものです。そして、InstructGPTの対話機能をさらに強化してチャットサービスにしたものが，ChatGPTとして出現したのです。

つまりChatGPTは，GPT-3.5という言語モデルをベースとし、RLHFを使って人間の好むような言い回しにしたり、差別的・暴力的な表現を避けるようにした上でリリースしたものです。
GPT-4でもRLHFは使用されていますが、もはや標準装備であり，Chat というネームは付けていません。

引用/参考ウェブサイト
- Think IT
  - 大規模言語モデルの自然言語処理「Transformer」モデルの仕組み