ChatGPTの学習方針
2026年03月19日
大規模言語モデルを人間のフィードバックを用いて微調整する学習フレームワーク
Step 1: 言語モデルの構築
Step 2: 報酬モデル学習
例: スコア差を確率化してlossを定義
\[ \mathcal{L} = -\mathbb{E}\!\left[\log \sigma\bigl(r_\theta(x, y_w) - r_\theta(x, y_l)\bigr)\right] \]
Step 3: PPOによる強化学習
\[ \max_{\pi_\text{RL}} \; \mathbb{E}\!\left[r_\theta(x,y) - \beta \, \text{KL}\bigl(\pi_\text{RL} \| \pi_\text{SFT}\bigr)\right] \]
Appendix
LLMの性能はパラメーター数・データサイズ・計算量の冪乗則に従う
Scaling Law(Kaplan et al., 2020)
他の2要素がボトルネックにならない条件下で,モデルの交差エントロピー損失 \(L\) は各変数の冪乗則に従う
\[ L(N) \propto N^{-\alpha_N}, \quad L(D) \propto D^{-\alpha_D}, \quad L(C) \propto C^{-\alpha_C} \]
冪乗則の意味
Chinchilla Optimal(Hoffmann et al., 2022)における学習方針
\[ L(N, D) = 1.69 + \frac{406.4}{N^{0.34}} + \frac{410.7}{D^{0.28}} \]
Regmonkey Presentation. ©Ryo Nakagami. All rights reserved.