Reinforcement Learning
from Human Feedback

LLM101

Ryo Nakagami

2026年03月19日

大規模言語モデルを人間のフィードバックを用いて微調整する学習フレームワーク

事前学習済みモデルは「もっともらしいテキスト」を生成するが，有害な応答や事実と異なる出力を返す場合がある
RLHF は，人間の選好を学習信号として取り込み，モデルの振る舞いを人間の好みに沿うよう調整する手法
SFT → 報酬モデル学習 → 強化学習（PPO）の3段階で，有用性（Helpful）・無害性（Harmless）・誠実性（Honest） の3Hを追求

Step 1: 言語モデルの構築

Step 2: 報酬モデル学習

例: スコア差を確率化してlossを定義

\[ \mathcal{L} = -\mathbb{E}\!\left[\log \sigma\bigl(r_\theta(x, y_w) - r_\theta(x, y_l)\bigr)\right] \]

Step 3: PPOによる強化学習

\[ \max_{\pi_\text{RL}} \; \mathbb{E}\!\left[r_\theta(x,y) - \beta \, \text{KL}\bigl(\pi_\text{RL} \| \pi_\text{SFT}\bigr)\right] \]

Appendix

LLMの性能はパラメーター数・データサイズ・計算量の冪乗則に従う

Scaling Law（Kaplan et al., 2020）

他の2要素がボトルネックにならない条件下で，モデルの交差エントロピー損失 \(L\) は各変数の冪乗則に従う

\[ L(N) \propto N^{-\alpha_N}, \quad L(D) \propto D^{-\alpha_D}, \quad L(C) \propto C^{-\alpha_C} \]

冪乗則の意味

\[ L(N, D) = 1.69 + \frac{406.4}{N^{0.34}} + \frac{410.7}{D^{0.28}} \]