Reinforcement Learning
from Human Feedback

ChatGPTの学習方針

Ryo Nakagami

2026年03月19日

Reinforcement Learning from Human Feedback

大規模言語モデルを人間のフィードバックを用いて微調整する学習フレームワーク

  • 事前学習済みモデルは「もっともらしいテキスト」を生成するが,有害な応答や事実と異なる出力を返す場合がある
  • RLHF は,人間の選好を学習信号として取り込み,モデルの振る舞いを人間の好みに沿うよう調整する手法
  • SFT → 報酬モデル学習 → 強化学習(PPO)の3段階で,有用性(Helpful)無害性(Harmless)誠実性(Honest) の3Hを追求

Step 1: 言語モデルの構築

  • プロンプトに対する理想的な応答を人間(ラベラー)が作成
  • この応答データで事前学習済みモデルを教師あり学習で調整(=SFTモデル1)
  • この段階では「チャットの応答」として良いモデルとは限らない

Step 2: 報酬モデル学習

  • 同一プロンプト \(x\) に対し SFTモデルが複数の応答 \(y\) を生成
  • 人間が3Hの基準で応答をランキング(例: \(y_w \succ y_l\)
  • ペア比較データから報酬モデル \(r_\theta(x, y)\) を学習

例: スコア差を確率化してlossを定義

\[ \mathcal{L} = -\mathbb{E}\!\left[\log \sigma\bigl(r_\theta(x, y_w) - r_\theta(x, y_l)\bigr)\right] \]

Step 3: PPOによる強化学習

  • SFTモデルを初期方策 \(\pi_\text{RL}\) として PPO で最適化
  • 報酬モデルのスコアを報酬信号として利用
  • KLペナルティでSFTモデルからの過度な乖離を防止

\[ \max_{\pi_\text{RL}} \; \mathbb{E}\!\left[r_\theta(x,y) - \beta \, \text{KL}\bigl(\pi_\text{RL} \| \pi_\text{SFT}\bigr)\right] \]

Appendix

  • Appendix

Neural Scaling Laws

LLMの性能はパラメーター数・データサイズ・計算量の冪乗則に従う

Scaling Law(Kaplan et al., 2020)

他の2要素がボトルネックにならない条件下で,モデルの交差エントロピー損失 \(L\) は各変数の冪乗則に従う

\[ L(N) \propto N^{-\alpha_N}, \quad L(D) \propto D^{-\alpha_D}, \quad L(C) \propto C^{-\alpha_C} \]

  • \(N\): パラメーター数,\(D\): データサイズ(トークン数),\(C\): 計算量(FLOPs)

冪乗則の意味

  • 性能は各変数に対して対数スケールで線形に改善する
  • 10倍のパラメーターで一定幅の損失減少が得られる(収穫逓減)
  • 3変数のうち最も制約の強い要素がボトルネックとなる
    • \(N\) だけ増やしても \(D\) が不足すれば性能は頭打ち

Chinchilla Optimal(Hoffmann et al., 2022)における学習方針

\[ L(N, D) = 1.69 + \frac{406.4}{N^{0.34}} + \frac{410.7}{D^{0.28}} \]

  • 固定計算予算 \(C\) のもとで \(N \propto D\) が最も効率的
  • 大規模データの恩恵はデータ品質が高い場合に限られる可能性あり
    • データが増えるほど,品質が下がるトレードオフに留意