統計的推測とBias-Variance Tradeoff
Definition 1 MSE
\[ \begin{align} \operatorname{MSE} &= \mathbb E_{\pmb\theta}[(\hat\theta - \theta)^2] \\ &= \mathbb E_{\pmb\theta}[(\hat\theta - \mathbb E_{\pmb\theta}[\hat\theta] + \mathbb E_{\pmb\theta}[\hat\theta] - \theta)^2] \\ &= \mathbb E_{\pmb\theta}[(\hat\theta - \mathbb E_{\pmb\theta}[\hat\theta])^2] + \mathbb E_{\pmb\theta}[(\mathbb E_{\pmb\theta}[\hat\theta] - \theta)^2] + 2\mathbb E_{\pmb\theta}[(\hat\theta - \mathbb E_{\pmb\theta}[\hat\theta])(\mathbb E_{\pmb\theta}[\hat\theta] - \theta)] \\ &= \mathbb E_{\pmb\theta}[(\hat\theta - \mathbb E_{\pmb\theta}[\hat\theta])^2] + (\mathbb E_{\pmb\theta}[\hat\theta] - \theta)^2 \\ &= \operatorname{Variance} + \operatorname{Bias}^2 \end{align} \]
上記の定義よりMSEは以下のように分解されます
\[ \operatorname{MSE} = \operatorname{Variance} + \operatorname{Bias}^2 \]
Example 1
\(\{X_1, \cdots, X_n\}\) がなにかしらの分布 \(D(\mu, \sigma)\) からのi.i.dサンプルだとします.なお,\(\mu\neq 0\), \(\mathbb E[X_i^4] < \infty\) とします.
\(\sigma^2\) の推定量の候補として
\[ \sigma^2 = \mathbb E[X^2] - \mathbb E[X]^2 \]
であるので,
\[ \begin{align} \overline{X^2} &= \frac{1}{n}\sum_{i=1}^n X_i^2\\ \overline{X} &= \frac{1}{n}\sum_{i=1}^n X_i\\ \hat\sigma^2 &= \overline{X^2} - \overline{X}^2 \end{align} \]
このとき,
\[ \begin{align} \mathbb E[(\overline{X})^2] &= \operatorname{Var}(\overline{X}) + (\mathbb E[\overline{X}])^2\\ &= \frac{1}{n}\sigma^2 + \mu^2 \end{align} \]
\[ \begin{align} \mathbb E[\overline{X^2}] &= \frac{1}{n}\sum_{i=1}^n\mathbb E[X_i^2]\\ &= \sigma^2 + \mu^2 \end{align} \]
従って,\(\hat\sigma^2\) のBiasは
\[ \begin{align} \mathbb E[\hat\sigma^2] - \sigma^2 &= \mathbb E[\overline{X^2}] - \mathbb E[(\overline{X})^2] - \sigma^2\\ &= \sigma^2 + \mu^2 - \frac{1}{n}\sigma^2 - \mu^2 \sigma^2\\ &= - \frac{1}{n}\sigma^2 \end{align} \]
一方,\(\hat\sigma^2\) のVarianceは,Delta methodを用いた漸近近似により
\[ \begin{align} \operatorname{Var}(\hat\sigma^2) &= \operatorname{Var}(\overline{X^2}) + \operatorname{Var}(\overline{X}^2)\\ &\approx \frac{1}{n}\operatorname{Var}(X_i^2) + (2\mu)^2\frac{\sigma^2}{n}\\ &= \mathcal{O}(n^{-1}) \end{align} \]
Remark 1.
Large Samplesの場合は,
- \(\operatorname{Variance}\) は \(1/n\) の速さで小さくなる
- \(\operatorname{Bias}^2\) は \(1/n^2\) の速さで小さくなる
以上より \(\operatorname{MSE}\) を最小化したい場合はvarianceの方を小さくするのが有効であることがわかる.
Example 2 MSEの比較
\[ \begin{align} \{X_1, \cdots, X_n\} \overset{\mathrm{iid}}{\sim} N(\mu, \sigma^2) \label{eq-exm} \end{align} \]
としたとき,\(\sigma^2\) のunbiased estimatorとして
\[ S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \overline{X})^2 \label{eq-exm-2} \]
が考えられます.このとき,かんたんな計算により Example 1 の推定量との関係として
\[ S^2 = \frac{n}{n-1}\hat\sigma^2 \]
\(\eqref{eq-exm}\) と \(\eqref{eq-exm-2}\) より
\[ (n-1)\frac{S^2}{\sigma^2} \sim \operatorname{\chi^2}(n-1) \]
従って,
\[ \operatorname{Var}(S^2)=\frac{2}{n-1}\sigma^4 \]
\(\operatorname{MSE}(S^2)\) と \(\operatorname{MSE}(\hat\sigma^2)\) を比較すると,
\[ \begin{align} \operatorname{MSE}(\hat\sigma^2) &= \mathbb E[(\hat\sigma^2 - \sigma^2)^2]\\ &= \frac{2(n-1)}{n^2}\sigma^4 + \frac{1}{n^2}\sigma^4\\ &= \frac{2n-1}{n^2}\sigma^4\\ &< \frac{2}{n-1}\sigma^4\\ &= \operatorname{Var}(S^2)\\ &= \operatorname{MSE}(S^2) \end{align} \]
CEF Decomposition Property
Theorem 1 CEF Decomposition Property
\[ Y_i = \mathbb E[Y_i|X_i] + \epsilon_i \]
- \(\mathbb E[\epsilon_i | X_i] = 0\): \(\epsilon_i\) is mean independent of \(X_i\)
- \(\epsilon_i\) is uncorrelated with any function of \(X_i\)
Theorem 2 CEFとMSE
\(m(X_i)\) を \(X_i\) の関数とするとき,
\[ \mathbb E[Y_i | X_i] = \underset{m(X_i)}{\arg\min}\mathbb E[(Y_i - m(X_i))^2] \]
つまり,\(\mathbb E[Y_i | X_i]\) は \(X_i\) で条件づけた \(Y_i\) の予測関数についてのMinimum Mean Squared Error(MMSE) である.