Up RLHF (Reinforcement Learning from Human Feedback) 作成: 2025-05-07
更新: 2025-05-07


  • つぎの強化学習:
      「人間の好む回答をする」(話術の向上)
      「不適切な発言をしない」(マナー向上)

      Think IT から引用:
    実はGPT-3.5とChatGPTの間にInstructGPTというものがあります。これは言語モデルのGPT-3.5シリーズに対し、人間の指示(Instruction)に従って人間好みの無害な出力を得るように調整したものです。そして、InstructGPTの対話機能をさらに強化してチャットサービスにしたものが,ChatGPTとして出現したのです。
    つまりChatGPTは,GPT-3.5という言語モデルをベースとし、RLHFを使って人間の好むような言い回しにしたり、差別的・暴力的な表現を避けるようにした上でリリースしたものです。
    GPT-4でもRLHFは使用されていますが、もはや標準装備であり,Chat というネームは付けていません。