ChatGPT 探求 :『指南書』

スキル実験は RLHF バイアス対策が必要

作成: 2025-09-14
更新: 2025-09-14

わたし:

ChatGPT:

わたし:

ChatGPT:

わたし:

ChatGPT:

　・

憶えている（内部パラメータに埋め込まれている）
　→ 富士山の高さなど。トークンの並びで知識として出せる。

　・

憶えていない／曖昧（内部記憶に頼れない）
　→ この場合、私には「でっちあげる」か「外部に取りに行く」しか選択肢がない。
　→ Free版ではでっちあげが出やすいが、Web接続がある環境では検索に回す「癖」が働く。

・	私はそれを「内部知識だけに限定せよ」という明示的制約」とは解釈していない場合が多く、
・	「正確さを優先 → Web検索を補う」という行動が出やすいのです。

わたし:

ChatGPT:

・	これは憶えている範囲の知識に基づく概算です。正確性や最新性は保証されません。数値が曖昧であったり、重複・順位のずれもあり得ます。

わたし:

ChatGPT:

・	実際には、私が応答に使ったのは内部パラメータに保持されている「学習済みの知識」です。
・	ただし、その知識は完全に正確な最新データではなく、学習時点までの情報や断片的情報に基づくため、結果として「数値に誤差や曖昧さがある」ことになります。
・	そのため、ユーザー目線では「概算っぽく見える」状態になる、という表現をしています。

・	推測はしていない → 私は新しい値をゼロから計算したり「埋め合わせ」していません。
・	記憶の断片性による不正確さ → 内部知識の限界で、数値の順序や人口値に曖昧さが生じる。
・	ユーザー視点では概算に見える → 正確性の保証がないので「概算」と言っていますが、生成プロセスは推測ではなく記憶呼び出しです。

わたし:

ChatGPT:

・	RLHF のプロセスで、モデルは人間が「正しい」「望ましい」と評価する応答を優先的に生成するよう報酬付けされています。
・	そのため、たとえ内部知識だけで回答しても、「正しくないかもしれない」と不安定な出力を出すよりも、確からしい値や補足説明を添える」傾向が出ます。
・	この傾向が、今回の「正確さへのこだわり」として現れるわけです。

・	Transformer 脳は、入力テキストに基づいて次のトークンを生成するアルゴリズムですが、訓練で「人間に納得されやすい」出力が強化されているため、自然と「正答に見えるもの」を生成する傾向が強くなります。
・	これは、報酬信号に最適化された挙動です。

・	例えば「知らないものは知らないと答える」指示を明示的に与えることで、RLHFの正確性バイアスを抑えられます。
・	つまり、「正解へのこだわり」を一時的に止めるための制約条件が実験には必要です。