16 正規分布
正規分布の性質
Def: 正規分布
確率変数 \(X\) が平均と分散 \(\mu, \sigma^2\) をもつ正規分布に従う,つまり \(X \sim N(\mu, \sigma^2)\) のとき,\(X\) の確率密度関数 \(f_X(x)\) は
\[ f_X(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}, \quad -\infty<x<\infty \]
\(X\sim N(\mu, \sigma^2)\) について,標準化変換(standardization)
\[ Z = \frac{X-\mu}{\sigma} \]
を行うと,変数変換の公式より
\[ f_Z(z) = \sigma f_X(\sigma z + \mu)=\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{z^2}{2}\right\} \]
となります.\(N(0, 1)\) のことを特に標準正規分布とよび,そのpdfを \(\phi(z)\), CDFを \(\Phi(z)\) で表します.
\(f_X(x)\) の形状から,location parameter \(\mu\) を中心に対称であることが分かる.つまり, \(\phi(z)\) は \(z=0\) で対称であり
\[ \begin{gather*} \Phi(0) = \frac{1}{2}\\ \Phi(-z) = 1 - \Phi(z) \end{gather*} \]
がわかる.
▶ \(\sigma\) 範囲
\(X\sim N(\mu, \sigma^2)\) という確率分布を考えたとき,シグマ範囲の目安として以下が知られてます
\[ \begin{gather*} \Pr(\vert X - \mu\vert > \sigma) \approx \frac{1}{3}\\ \Pr(\vert X - \mu\vert > 2\sigma) \approx \frac{1}{20}\\ \Pr(\vert X - \mu\vert > 3\sigma) \approx \frac{3}{1000}\\ \Pr(\vert X - \mu\vert > 4\sigma) \approx \frac{1}{10000} \end{gather*} \]
大体の目安として, \(3\sigma\) 範囲はいわゆる「千三つ」であることは覚えといて損はないと思います.
Theorem 16.1
\[ \int^\infty_{-\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\mathrm{d}x = 1 \]
が成立する.
Theorem 16.2
標準正規分布の確率密度関数を \(\phi(x)\) とするとき,
\[ \begin{gather*} \int_\mathbb R x\phi(x) \mathrm{d}x = 0\\ \int_\mathbb R x^2\phi(x) \mathrm{d}x = 1\\ \end{gather*} \]
が成立する.
Theorem 16.3
確率変数 \(X\sim N(\mu, \sigma^2)\) のとし,\(f(x)\) をその確率密度関数とする,このとき,
\[ \begin{gather*} \int_\mathbb R xf(x;\mu,\sigma^2) \mathrm{d}x = \mu\\ \int_\mathbb R (x-\mu)^2f(x;\mu,\sigma^2) \mathrm{d}x = \sigma^2\\ \end{gather*} \]
が成立する.
Example 16.1 : 標準正規分布の4次モーメントの導出
\(X\sim N(0, 1)\) の4次モーメントについて,ガンマ関数 \(\Gamma(1/2) = \sqrt{\pi}\) を用いて以下のように計算できます.
\[ \begin{align*} \mathbb E[X^4] &= \frac{1}{\sqrt{2\pi}}\int^\infty_{-\infty}x^4\exp\left(-\frac{x^2}{2}\right)\mathrm{d}x\\ &= \frac{2}{\sqrt{2\pi}}\int^\infty_{0}x^4\exp\left(-\frac{x^2}{2}\right)\mathrm{d}x \quad\because \text{偶関数より} \end{align*} \]
ここで, \(x^2 = u\) という変数変換を行う.
\[ \begin{align*} \frac{2}{\sqrt{2\pi}}\int^\infty_{0}x^4\exp\left(-\frac{x^2}{2}\right)\mathrm{d}x &= \frac{2}{\sqrt{2\pi}}\int^\infty_{0}u^2 \exp\left(-\frac{u}{2}\right)\frac{u^{-1/2}}{2}\mathrm{d}u\\ &= \frac{1}{\sqrt{2\pi}}\int^\infty_{0}u^{\frac{5}{2}-1} \exp\left(-\frac{u}{2}\right)\mathrm{d}u\\ &= \frac{1}{\sqrt{2\pi}} \Gamma\left(\frac{5}{2}\right)\left(\frac{1}{2}\right)^{-5/2}\\ &= \frac{\sqrt{\pi} \frac{1}{2}\frac{3}{2}}{\sqrt{2\pi}}2^{5/2}\\\\ &= 3 \end{align*} \]
\[\tag*{\(\blacksquare\)}\]
▶ 標準正規分布のn次モーメントについて
標準正規分布について,\(\phi(z)\) が偶関数であることから,\(n\) が奇数のときは
\[ \mathbb E[X^n] = 0 \]
であることはすぐに分かります.一方,\(l\) を自然数として, \(n=2l\) と表せるときは
\[ \begin{align*} \mathbb E[X^n] &= \frac{1}{\sqrt{2\pi}}\int^{\infty}_{-\infty}x^n\exp\bigg(-\frac{x^2}{2}\bigg)\mathrm{d}x\\[3pt] &= \frac{2}{\sqrt{2\pi}}\int^{\infty}_{0}x^{2l}\exp\bigg(-\frac{x^2}{2}\bigg)\mathrm{d}x\\[3pt] \end{align*} \]
\(x^2/2 = u\) と変数変換を行うと,\(\frac{\mathrm{d}x}{\mathrm{d}u}=\frac{1}{\sqrt{2u}}\) より
\[ \begin{align*} \mathbb E[X^n] &= \frac{2^{l+1}}{\sqrt{2\pi}}\int^{\infty}_{0}u^{l}\exp(-u)\frac{1}{\sqrt{2u}}\mathrm{d}u\\[3pt] &= \frac{2^l}{\sqrt{\pi}}\int^{\infty}_{0}u^{l-\frac{1}{2}}\exp(-u)\mathrm{d}u\\[3pt] &= \frac{2^l}{\sqrt{\pi}}\int^{\infty}_{0}u^{l+\frac{1}{2}-1}\exp(-u)\mathrm{d}u\\[3pt] &= \frac{2^l}{\sqrt{\pi}}\Gamma\bigg(l+\frac{1}{2}\bigg) \end{align*} \]
\(\Gamma(1/2) = \sqrt{\pi}\) であることに留意すると
\[ \begin{align*} \Gamma\left(\frac{3}{2}\right) &= \frac{1}{2}\Gamma\left(\frac{1}{2}\right)\\ \Gamma\left(\frac{5}{2}\right) &= \frac{3}{2}\Gamma\left(\frac{3}{2}\right)\\ &= \frac{1 \times 3}{2^2}\sqrt{\pi} \end{align*} \]
になるので
\[ \begin{align*} \mathbb E[X^n] &= 1\times 3\times 5\times\cdots\times (2l-1)\\ &= \prod_{i=1}^l(2i-1) \end{align*} \]
またはこれを変形して,
\[ \frac{1}{2l!}\mathbb E[X^{2l}] = \prod^l_{k=1}\frac{1}{2k} \]
と表すこともできます.
MGFと特性関数
Theorem 16.4 : 標準正規分布の積率母関数と特性関数
\(X\sim N(0, 1)\) としたとき,積率母関数 \(M_Z(t)\) 及び,特性関数 \(\varphi_Z(t)\) は以下のようになる
\[ \begin{align*} M_Z(t) &= \exp(t^2/2)\\ \varphi_Z(t)&= \exp(-t^2/2) \end{align*} \]
Theorem 16.5 : MGF of non-standard normal distribution
\(X \sim N(\mu, \sigma^2)\) の積率母関数および特性関数は
\[ \begin{align*} M_X(t) &= \exp\left(\mu t + \frac{1}{2}\sigma^2t^2\right)\\ \varphi_X(t) &= \exp\left(i\mu t-\frac{t^2\sigma^2}{2}\right) \end{align*} \]
Theorem 16.6
\(X\sim N(\mu, \sigma^2)\) とする.定数 \(a, b\) に対して
\[ Y = aX + b \]
としたとき,\(Y\sim N(a\mu + b, a^2\sigma^2)\) となる.
正規分布の再生性
Def: 確率分布の再生性
確率分布 \(F\) について,2 つの独立な確率変数 \(X, Y\) が \(F\) に従うとする.このとき,
\[ \begin{align*} Z &= X + Y\\ Z& \sim F \end{align*} \]
が成立するとき,確率分布 \(F\) は再生性をもつという.
二項分布,負の二項分布,ポアソン分布,正規分布などは,再生性を持つことがしられています.
Theorem 16.7 : 正規分布の再生性
正規分布は,location parameter, scale parameter両方について再生性を持つ.つまり,
\[ \begin{align*} &X \sim N(\mu_x, \sigma^2_x), Y \sim N(\mu_y, \sigma^2_y)\\ \Rightarrow& X +Y \sim N(\mu_x+\mu_y, \sigma^2_x + \sigma^2_y) \end{align*} \]
Theorem 16.8 : \(n\)個の正規分布の再生性
確率変数 \(X_1, \cdots, X_n\) が互いに独立に \(N(\mu_i, \sigma^2_i)\) に従うとする. \((a_1, \cdots, a_n, b)\)を定数としたとき,確率変数 \(Y = \sum_i a_iX_i + b\) について,
\[ Y\sim N(a_1\mu_1 + \cdots + a_n\mu_n +b, a_1^2\sigma^2 + \cdots, + a_n^s\sigma^2) \]
が成立する.
Differential Entropy
Def: 微分エントロピー
連続確率変数 \(X\) について,確率密度関数が \(p(x)\) で与えられているとする.このとき,微分エントロピーは以下の形で定義される
\[ \mathrm{H}(X) = - \int_{\mathcal{X}} p(x) \log_b p(x) \, \mathrm{d}x \]
なお,\(b\) は通常 \(2, e\) が用いられる
平均 \(\mu\), 分散 \(\sigma^2\) をもつ確率分布のうち,正規分布は微分エントロピーを最大にする分布として知られています.
▶ \(N(\mu, \sigma^2)\) の微分エントロピー
\(N(\mu, \sigma^2)\) の確率密度関数を \(f(x)\) として,微分エントロピーの定義より
\[ \begin{align*} \mathrm{H} &= - \int_{-\infty}^\infty f(x) \log_2 f(x) \, \mathrm{d}x\\ &= - \int_{-\infty}^\infty f(x) \log_2 \left(\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\right) \, \mathrm{d}x\\ &= \frac{\log_2(2\pi\sigma^2)}{2}\int_{-\infty}^\infty f(x)\mathrm{d}x + \frac{\log_2 e}{2\sigma^2} \int_{-\infty}^\infty (x-\mu)^2f(x)\mathrm{d}x\\ &= \frac{1}{2}\log_2(2\pi e\sigma^2) \end{align*} \]
なお,自然対数で表現する場合,\(\mathrm{H} = \frac{1}{2}[1 + \ln(2\pi\sigma^2)]\)
\[\tag*{\(\blacksquare\)}\]
Theorem 16.9
平均 \(\mu\), 分散 \(\sigma^2\) をもつ確率分布のうち,正規分布は微分エントロピーを最大にする分布である.
📘 REMARKS
- \(\lambda_2 = 0\) より location paramter \(\mu\) を変化させても,微分エントロピーは限界的には増えないことが分かります
- \(\lambda_3 < 0\) より scale paramter \(\sigma^2\) を増大させると,微分エントロピーは限界的に増大することも分かります
他の確率分布との関係性
Example 16.2 : 二項分布の極限分布としての正規分布<
\(n\) を正の整数として,\(Y_n \sim \operatorname{Binom}(n, 1/2)\) とし,
\[ X_n = \frac{Y_n - n/2}{\sqrt{n}/2} \]
という確率変数を考えます.\(X_n \in (x - 2/\sqrt{n}, x]\) となるような確率を考えてみると
\[ \begin{align*} &\Pr(x - 2/\sqrt{n} < X_n \leq x)\\ &= \Pr\left(\frac{\sqrt{n}}{2}x + \frac{n}{2} - 1 < Y_n \leq \frac{\sqrt{n}}{2}x + \frac{n}{2}\right)\\ &= \Pr\bigg(\bigg\lfloor Y_n = \frac{\sqrt{n}}{2}x + \frac{n}{2}\bigg\rfloor\bigg)\\ &= \frac{n!}{\bigg\lfloor \frac{\sqrt{n}}{2}x + \frac{n}{2}\bigg\rfloor ! \bigg\lceil -\frac{\sqrt{n}}{2}x + \frac{n}{2}\bigg\rceil !}\left(\frac{1}{2}\right)^n \end{align*} \]
ここでスターリングの公式より十分大きい正の整数 \(m\) について
\[ m! \approx \sqrt{2\pi m} m^m\exp(-m) \]
と近似できるので
\[ \begin{align*} &\lim_{n\to\infty}\Pr(x - 2/\sqrt{n} < X_n \leq x)\\ &= \lim_{n\to\infty}\frac{n!}{\bigg\lfloor \frac{\sqrt{n}}{2}x + \frac{n}{2}\bigg\rfloor ! \bigg\lceil -\frac{\sqrt{n}}{2}x + \frac{n}{2}\bigg\rceil !}\left(\frac{1}{2}\right)^n\\ &= \lim_{n\to\infty} \frac{1}{\sqrt{2\pi\left(\frac{n}{4}-\frac{x^2}{4}\right)}\left(1 - \frac{x^2}{n}\right)^{\frac{n}{2}}\left(1 + \frac{x}{\sqrt{n}}\right)^{\frac{\sqrt{n}}{2}x}\left(1 - \frac{x}{\sqrt{n}}\right)^{-\frac{\sqrt{n}}{2}x}}\left(\frac{1}{2}\right)^n\\ &= \frac{1}{\sqrt{2\pi}\exp(-x^2/2)\exp(x^2/2)\exp(x^2/2)}\\ &=\frac{1}{\sqrt{2\pi}}\exp(-x^2/2)\\[8pt] &= \phi(x) \end{align*} \]
\[\tag*{\(\blacksquare\)}\]