5 期待値

Author

Ryo Nakagami

Published

2024-09-12

Modified

2024-10-19

確率的変動を考慮する際に，ランダムネスを要約した統計量として期待値を用いる場面は多いです．例えば，マーケティング担当者は，プロモーションの提供によって得られるリターンの期待値に基づいてプロモーションの実施を判断しますし，投資家はさまざまな金融商品の期待リターンとリスクに基づいてポートフォリオを選択したりします．

期待値の性質

Def: 連続確率変数の期待値

\(f\) を確率変数 \(X\) の確率密度関数とする．\(\int_{\mathbb R} \vert x\vert f(x) \mathrm{d}x < \infty\) のとき，\(X\) の期待値は以下のように定義する:

\[ \mathbb E[X] = \int_{\mathbb R} x f(x) \mathrm{d}x \]

また，\(X\) の関数 \(g(X)\) の期待値は \(\int_{\mathbb R} \vert g(x)\vert f(x) \mathrm{d}x < \infty\) ならば

\[ \mathbb E[g(X)] = \int_{\mathbb R} g(x) f(x) \mathrm{d}x \]

定義より確率密度関数で重みづけた平均が確率変数の期待値になると解釈することができます．meanは分布の位置を表すパラメーターとも解釈できるので location parameter（位置母数）と呼ぶこともあります．一方，標準偏差 \(\sigma\) はscale parameter（尺度母数）といいます．

Example 5.1 指数分布の期待値

rate parameter \(\lambda\) の指数分布に従う確率変数 \(X\) を考えます．

\[ \begin{align*} \mathbb E[X] &= \int^\infty_0 x \lambda \exp(-\lambda x)\mathrm{d}x\\ &= \bigg[-x\exp(-\lambda x)\bigg]^\infty_0 + \int^\infty_0 \exp(-\lambda x)\mathrm{d}x\\ &= \int^\infty_0 \exp(-\lambda x)\mathrm{d}x\\ &= -\frac{1}{\lambda}\bigg[\exp(-\lambda x)\bigg]^\infty_0\\ &= \frac{1}{\lambda} \end{align*} \]

指数分布は電球の寿命などに応用される分布ですが，rate parameter \(\lambda\) が小さいほど期待値（= 電球の寿命）が大きくなることが分かります．

Example 5.2 期待値が定義できない離散分布

確率変数 \(X\) のsupportを加算集合 \(\{2, 2^2, 2^3, \cdots\}\) とする．確率関数を

\[ \Pr(X = 2^i) = \frac{1}{2^i} \quad (i = 1, 2, \cdots) \]

このとき，

\[ \sum_{i=1}^\infty \Pr(X=2^i) = \sum_{i=1}^\infty\frac{1}{2^i} = 1 \]

と確率の公理を満たしていることが分かる．一方，

\[ \begin{align*} \mathbb E[X] &= \sum_{i=1}^\infty 2^i \frac{1}{2^i}\\ &= \sum_{i=1}^\infty 1 = \infty \end{align*} \]

従って，確率変数 \(X\) の分布は，期待値が定義できない分布であることがわかる．

Example 5.3 期待値が定義できない連続分布

確率密度関数 \[ f(x) = \begin{cases} 0 & x < 1\\ \frac{1}{x^2} & x\geq 1 \end{cases} \]

という確率変数 \(X\) を考える．

\[ \begin{align*} \int_1^\infty f(x) \mathrm{d}x &= \left[\frac{1}{x}\right]^1_\infty = 1 \end{align*} \]

一方，

\[ \begin{align*} \mathbb E[X] &= \int_1^\infty xf(x) \mathrm{d}x\\ &= \int_1^\infty\frac{1}{x}\mathrm{d}x\\ &= \left[\log(x)\right]_1^\infty = \infty \end{align*} \]

従って，確率変数 \(X\) の分布は，期待値が定義できない分布であることがわかる．

▶ 離散確率変数の変数変換と期待値

離散型確率変数 \(X\) について \(Y = g(X)\) を考えたとき，\(A_y = \{x\vert g(x)=y\}\) とおくと

\[ \begin{align*} \mathbb E[g(X)] &= \sum_x p(x)g(x)\\ &= \sum_y\sum_{A_y} p(x)g(x)\\ &= \sum_y\sum_{A_y} p(x)y\\ &= \sum_y y \sum_{A_y} p(x)\\ &= \sum_y \Pr(Y=y)y\\ &= \mathbb E[Y] \end{align*} \]

上の式展開では, \(\Pr(X=x) = p(x)\) としています．

▶ 期待値と重心

期待値の解釈の１つとして確率変数 \(X\) の重心と考えるパターンがあります．\(x_i\) の値を \(p_i\) の確率でとる離散型確率変数 \(X\) の場合，

重さのない棒の中央を原点とする
原点から右側をプラス，左側をマイナスとして，原券からの距離 \(x_i\) の場所に重さ \(p_i\) のおもりを吊り下げる

このとき，重心 \(\mu\) はモーメントの釣り合い = 右回りモーメントが0になる地点となりますが

\[ \begin{align*} \text{右回りモーメント} &= \sum_i (x_i - \mu)p_i\\ &= \sum x_ip_i - \sum_i p_i \mu\\ &= \mathbb E[X] - \mu = 0 \end{align*} \]

従って，\(\mathbb E[X] = \mu\) より，期待値と重心が対応することがわかります．連続型確率変数でも確率密度関数を重さのある棒の断面積とみなすことで離散型と同じく期待値と重心が対応することを確かめることができます．

Theorem 5.1 Tail probabilities

\([0, b]\) の定義域をもつ非負確率変数 \(X\) を考える．\(F\) を累積分布関数とするとき

\[ \mathbb E[X] = \int_0^b (1 - F(x))\mathrm{d}x \]

Proof

\[ \bigg[xF(x)\bigg]^b_0 = \int^b_0xf(x) \mathrm{d}x + \int^b_0F(x) \mathrm{d}x \]

を用いると

\[ \begin{align*} \mathbb E[X] &= b - \int^b_0F(x) \mathrm{d}x\\ &= \int^b_0 1 \mathrm{d}x - \int^b_0F(x) \mathrm{d}x\\ &= \int_0^b (1 - F(x))\mathrm{d}x \end{align*} \]

Theorem 5.2 Tail probabilities

\(\mathbb E[\vert X\vert]<\infty\) をもつ非負の確率変数 \(X\) について，\(F(x)\) を分布関数とすると

\[ \mathbb E[X] = \int_0^\infty (1 - F(x))\mathrm{d}x \]

Proof

\[ \begin{align*} \int_0^\infty (1 - F(x))\mathrm{d}x &= \int_0^\infty \Pr(X\geq x)\mathrm{d}x\\ &= \int_0^\infty \mathbb E[\mathbb 1(X\geq x)]\mathrm{d}x\\ &= \int_0^\infty \int_0^\infty \mathbb 1(X\geq x) \mathrm{d}F(x)\mathrm{d}x\\ &= \int_0^\infty \left\{\int_0^\infty \mathbb 1(X\geq x) \mathrm{d}x\right\}\mathrm{d}F(x) \quad\because\text{積分の順序交換}\\ &= \mathbb E\left[\int_0^\infty \mathbb 1(X\geq x) \mathrm{d}x\right]\\ &= \mathbb E\left[\int_0^X 1 \mathrm{d}x\right]\\ &= \mathbb E[X] \end{align*} \]

\(\lim_{b\to\infty}\bigg[x(1 - F(x))\bigg]^b_0\) について，\(\lim_{b\to\infty}b(1 - F(b))=0\) とは限らない点に注意が必要です．

Theorem 5.3

\([0, \infty)\) の定義域をもつ非負確率変数 \(X\) を考える．\(\mathbb E[\vert X^{p+1} \vert] <\infty\) が定義可能及び， \(F\) を累積分布関数とするとき

\[ \mathbb E[X^p] = \int_0^\infty px^{p-1} (1 - F(x))\mathrm{d}x \quad \text{where } p > 0 \]

Proof

\[ \begin{align*} \bigg[x^p(1 - F(x))\bigg]^\infty_0 = \int^\infty_0 p x^{p-1}(1 -F(x))\mathrm{d}x - \int^\infty_0 x^{p}f(x)\mathrm{d}x \end{align*} \]

\(\text{RHS} = 0\) であるので

\[ \mathbb E[X^p] = \int_0^\infty px^{p-1} (1 - F(x))\mathrm{d}x \]

Example 5.4 : Discrete Tail Probability

同様の考えで定義域を \(0,1,2,3,\cdots\) とする離散確率変数 \(X\) について

\[ \mathbb E[X] = \sum_{k=0}^\infty \Pr(X > k) \]

が成立します．

\[ \begin{align*} \Pr(X > k) &= \Pr(X = k+1) + \Pr(X = k+2) + \cdots\\ &= \sum_{l=k+1}^\infty \Pr(X=l) \end{align*} \]

従って，

\[ \begin{align*} \sum_{k=0}^\infty \Pr(X > k) &= \sum_{k=0}^\infty \sum_{l=k+1}^\infty \Pr(X=l)\\ &= \sum_{l=1}^\infty\sum_{k=0}^{l-1}\Pr(X=l) \quad\because \Pr(X=l) > 0 \\ &= \sum_{l=1}^\infty l\Pr(X=l)\\ &= \sum_{l=0}^\infty l\Pr(X=l)\\ &= \mathbb E[X] \end{align*} \] \[\tag*{\(\blacksquare\)}\]

Example 5.5

\(0,1,2,3,\cdots\) とする離散確率変数 \(X\) について

\[ \mathbb E[X^2] = \sum_{k=0}^\infty \Pr(X > k)(2k+1) \]

も成立する．

\[ \begin{align*} \sum_{k=0}^\infty \Pr(X > k)(2k+1) &= \sum_{k=0}^\infty \sum_{l=k+1}^\infty \Pr(X=l)(2k+1)\\ &= \sum_{l=1}^\infty \sum_{k=0}^{l-1}\Pr(X=l)(2k+1)\\ &= \sum_{l=1}^\infty \Pr(X=l)\sum_{k=0}^{l-1}(2k+1)\\ &= \sum_{l=1}^\infty l^2\Pr(X=l)\\ &= \mathbb E[X^2] \end{align*} \]

\[\tag*{\(\blacksquare\)}\]

Theorem 5.4 期待値の線型性

\(a, b\) を実数，確率変数 \(X, Y\) について以下が成り立つ

\[ \mathbb E[aX + bY] = a\mathbb E[X] + b\mathbb E[Y] \]

Proof

確率変数 \(X, Y\) が有限加算な標本空間で定義されているケースにて以下を示す．

\(\mathbb E[X + Y] = \mathbb E[X] + \mathbb E[Y]\)
\(\mathbb E[cX] = c\mathbb E[X]\)

▶ 1. \(\mathbb E[X + Y] = \mathbb E[X] + \mathbb E[Y]\)

確率変数 \(X\) は \(\{x_1, \cdots, x_m\}\), 確率変数 \(Y\) は \(\{y_1, \cdots, y_n\}\) の値をそれぞれ取りうるとする．このとき，\(Z = X + Y\) の標本空間 \(\{z_1, \cdots, z_k\}\) について \(k\leq m + n\) が成り立つ．

\(A_l = \{(i,j): x_i + y_j = z_l\}\) としたとき，

\[ \begin{align*} \mathbb E[X+Y] &= \sum_{l=1}^kz_l\Pr(A_l)\\ &= \sum_{l=1}^k\sum_{(i,j)\in Z_l}(x_i + y_j)\Pr(x_i, y_j)\\ &= \sum_{i=1}^m\sum_{j=1}^n(x_i + y_j)\Pr(x_i, y_j)\\ &= \sum_{i=1}^m\sum_{j=1}^nx_i\Pr(x_i, y_j) + y_j\Pr(x_i, y_j)\\ &= \sum_{i=1}^m\sum_{j=1}^n[x_i\Pr(x_i, y_j) + y_j\Pr(x_i, y_j)]\\ &= \sum_{i=1}^mx_i\sum_{j=1}^nPr(x_i, y_j) + \sum_{j=1}^ny_j\sum_{i=1}^m\Pr(x_i, y_j)\\ &=\sum_{i=1}^mx_i \Pr(x_i) + \sum_{j=1}^ny_j \Pr(y_j)\\ &= \mathbb E[X] + \mathbb E[Y] \end{align*} \]

▶ 2. \(\mathbb E[cX] = c\mathbb E[X]\)

\[ \begin{align*} \mathbb E[cX] &= \sum_{i=1}^m cx_i = \Pr(cX = cx_i)\\ &= c\sum_{i=1}^m x_i = \Pr(X = x_i)\\ &= c\mathbb E[X] \end{align*} \]

期待値の線型性定理の応用として, 期待値が定義できるという前提の下，

\[ \begin{align*} \mathbb E[g(X, Y) + h(X, Y)] &= \mathbb E[g(X, Y)] + \mathbb E[h(X, Y)]\\ \mathbb E[ag(X, Y) + b] &= a\mathbb E[g(X, Y)] + b \quad (a, b \text{: constants}) \end{align*} \] が成り立ちます．

\[ \begin{align*} \mathbb E[g(X, Y) + h(X, Y)] &= \int_{\mathbb R}\int_{\mathbb R}(g(x, y) + h(x, y))f(x, y) \,\mathrm{d}x\,\mathrm{d}y\\ &= \int_{\mathbb R}\int_{\mathbb R}g(x, y)f(x, y) \,\mathrm{d}x\,\mathrm{d}y + \int_{\mathbb R}\int_{\mathbb R}h(x, y)f(x, y) \,\mathrm{d}x\,\mathrm{d}y\\ &= \mathbb E[g(X, Y)] + \mathbb E[h(X, Y)] \end{align*} \]

上記のように確認できます．

Example 5.6 : 変数変換と分散

mean \(\mu\) をもつ確率変数 \(X\) と実数 \(a, b\) について

\[ \operatorname{Var}(aX + b) = a^2\operatorname{Var}(X) \]

が成立します．証明は以下，

\[ \begin{align*} \operatorname{Var}(aX + b) &= \mathbb E[(aX + b) - (a\mu +b)^2]\\ &= \mathbb E[a^2(X - \mu)^2]\\ &= a^2 \mathbb E[(X - \mu)^2]\\ &= a^2\operatorname{Var}(X) \end{align*} \]

\[\tag*{\(\blacksquare\)}\]

Theorem 5.5 : 確率変数の標準化

確率変数 \(X\) について, \(\mathbb E[X] = \mu, \operatorname{Var}(X) =\sigma^2\) が存在するとき，

\[ Z = \frac{X - \mu}{\sigma} \]

とおくと，\(\mathbb E[Z] = 0, \operatorname{Var}(Z) = 1\) が成立する．

Proof

\[ \begin{align*} \mathbb E[Z] &= \mathbb E\left[\frac{X - \mu}{\sigma}\right]\\ &= \frac{\mathbb E[X] - \mu}{\sigma}\\ &= 0 \end{align*} \]

\[ \begin{align*} \operatorname{Var}(Z) &= \mathbb E[Z^2]\\ &= \mathbb E\left[\frac{(X - \mu)^2}{\sigma^2}\right]\\ &= \frac{\sigma^2}{\sigma^2}\\ &= 1 \end{align*} \]

Theorem 5.6 positive operator

確率変数 \(X, Y\) について，\(X\geq Y\) が成り立つとき，

\[ \mathbb E[X] \geq \mathbb E[Y] \]

Proof

\(X\geq Y\) より \(X - Y \geq 0\). 期待値はpositive operatorなので

\[ \mathbb E[X - Y] \geq 0 \]

従って，期待値の線型性を用いると

\[ \begin{align*} \mathbb E[X - Y] &= \mathbb E[X] - \mathbb E[Y] \geq 0 \end{align*} \]

Theorem 5.7

確率変数 \(X\) について,

\[ \mathbb E[\vert X \vert] \geq \vert \mathbb E[X] \vert \]

Proof

\(\vert X\vert \geq X\) より

\[ \mathbb E[\vert X \vert] \geq \mathbb E[X] \]

また, \(\vert X\vert + X \geq 0\) より，\(\mathbb E[\vert X\vert + X] \geq 0\)，つまり，

\[ \mathbb E[\vert X \vert] \geq -\mathbb E[X] \]

以上より，\(\mathbb E[\vert X \vert] \geq \vert \mathbb E[X] \vert\)

Theorem 5.8 Schwarz inquality

確率変数 \(X, Y\) についてシュワルツの不等式が成立することを示せ

\[ \left(\mathbb E[XY]\right)^2 \leq \mathbb E[X^2]\mathbb E[Y^2] \]

Proof

Quadratic functionを以下のように定義します

\[ \begin{align*} g(t) &= \mathbb E[(tX - Y)^2]\\ &= t^2\mathbb E[X^2] - 2t\mathbb E[XY] + E[Y^2]\\ &\geq 0 \end{align*} \]

このとき，\(g(t)\) はnon-negativeなので判別式について以下が成立する

\[ D/4 = \left(\mathbb E[XY]\right)^2 - \mathbb E[X^2]\mathbb E[Y^2]\leq 0 \]

従って，\(\left(\mathbb E[XY]\right)^2 \leq \mathbb E[X^2]\mathbb E[Y^2]\)

Theorem 5.9 : Triangle inequality

確率変数 \(X, Y\) について，以下のような三角不等式が成立することを示せ

\[ \sqrt{\mathbb E[(X+Y)^2]} \leq \sqrt{\mathbb E[X^2]} + \sqrt{\mathbb E[Y^2]} \]

Proof

シュワルツの不等式を用いて以下のように示せる

\[ \begin{align*} \mathbb E[(X+Y)^2] &= \mathbb E[X^2] + 2\mathbb E[XY] + \mathbb E[Y^2]\\ &= \mathbb E[X^2] + 2\sqrt{(\mathbb E[XY])^2} + \mathbb E[Y^2]\\ &\leq \mathbb E[X^2] + 2\sqrt{\mathbb E[X^2]\mathbb E[Y^2]} + \mathbb E[Y^2]\\ &= (\sqrt{\mathbb E[X^2]} + \sqrt{\mathbb E[Y^2]})^2 \end{align*} \]

両辺について，square rootをとると，

\[ \sqrt{\mathbb E[(X+Y)^2]} \leq \sqrt{\mathbb E[X^2]} + \sqrt{\mathbb E[Y^2]} \]

独立な確率変数と期待値

Theorem 5.10 互いに独立な確率変数の積の期待値

\(\mathbb E[\vert X\vert ]<\infty, \mathbb E[\vert Y\vert ]<\infty\) を満たす, 確率空間 \((\Omega, \mathscr{F},P)\) 上で定義された確率変数 \(X, Y\) を考える． \(X \perp Y\) であるとき，次が成立する

\[ \mathbb E[XY] = \mathbb E[X]\mathbb E[Y] \]

Proof

\[ \begin{align*} \mathbb E[XY] &= \int\int_\Omega xy f(x, y)\mathrm{d}x\mathrm{d}y\\ &= \int\int_\Omega xy f_X(x)f_Y(y)\mathrm{d}x\mathrm{d}y \quad\because{\text{independence}}\\ &= \left(\int xf_X(x)\mathrm{d}x\right)\left(\int yf_Y(y)\mathrm{d}y\right)\\ &= \mathbb E[X]\mathbb E[Y] \end{align*} \]

Theorem 5.11 互いに独立な確率変数についての関数の積の期待値

\(\mathbb E[\vert X\vert ]<\infty, \mathbb E[\vert Y\vert ]<\infty\) を満たす, 確率空間 \((\Omega, \mathscr{F},P)\) 上で定義された確率変数 \(X, Y\) を考える．また，関数 \(g(X)\), \(h(Y)\) は期待値が存在するとする．\(X \perp Y\) であるとき，次が成立する

\[ \mathbb E[g(X)h(Y)] = \mathbb E[g(X)]\mathbb E[h(Y)] \]

Proof

\(X \perp Y\) なので，確率密度関数について \(f(x, y) = f_X(x)f_Y(y)\) が成立します．

\[ \begin{align*} \mathbb E [g(X)h(Y)] &= \int_{\mathbb R}\int_{\mathbb R}g(x)h(x)f(x, y)\,\mathrm{d}x\,\mathrm{d}y\\ &= \int_{\mathbb R}\int_{\mathbb R}g(x)h(x)f(x, y)\,\mathrm{d}x\,\mathrm{d}y\\ &= \left\{\int_{\mathbb R}g(x)f_X(x)\,\mathrm{d}x\right\}\left\{\int_{\mathbb R}h(x)f_Y(y)\,\mathrm{d}y\right\}\\ &= \mathbb E[g(X)]\mathbb E[h(Y)] \end{align*} \]

条件付き期待値

Theorem 5.12 Law of Total Expectation

\[ \mathbb E[Y] = \mathbb E[\mathbb E[Y\vert X]] \]

Proof

▶ 連続確率変数の場合

\[ \begin{align*} \mathbb E[\mathbb E[Y\vert X]] &= \int \mathbb E[Y\vert X=u]f_X(u)\mathrm{d}u\\ &= \int \left[\int t f_Y(t\vert x=u)\mathrm{d}t\right]f_X(u)\mathrm{d}u\\ &= \int \int t f_Y(t\vert x=u)f_X(u)\mathrm{d}u\mathrm{d}t\\ &= \int t\left[\int f_{X,Y}(u, t)\mathrm{d}u\right]\mathrm{d}t\\ &= \int t f_Y(t)\mathrm{d}t\\ &= \mathbb E[Y] \end{align*} \]

▶ 離散確率変数の場合

\[ \begin{align*} \mathbb E[\mathbb E[Y\vert X]] &= \sum_{x\in \mathcal{X}}\mathbb E[Y\vert X] f_X(x)\\ &= \sum_{x\in \mathcal{X}}\sum_{y\in \mathcal{Y}} y f_{Y\vert X}(y \vert x) f_X(x)\\ &= \sum_{x\in \mathcal{X}}\sum_{y\in \mathcal{Y}} y f(x, y)\\ &= \sum_{y\in \mathcal{Y}}y f_Y(y)\\ &= \mathbb E[Y] \end{align*} \]

LTEの法則より

\[ \begin{align*} \mathbb E[Y] &= \mathbb E[\mathbb E[Y\vert X, Z]]\\ \mathbb E[Y\vert X] &= \mathbb E[\mathbb E[Y\vert X, Z]\vert X] \end{align*} \]

が成立します．

なお，\(\mathbb E[Y\vert X], \mathbb E[Y\vert X=x]\) の違いには注意が必要です．前者は確率変数ですが，後者は確率変数の実現値の取りうる値を表しています．\(X\) を \(x_1, \cdots, x_k\) の値を取る離散確率変数とすると， \(\mathbb E[Y\vert X]\) は \(k\) 個の値を取る離散確率変数となります．

Theorem 5.13

\(g(\cdot)\) を \(\mathbb E[g(X)Y] < \infty\) を満たす \(X\) の任意の関数とする．このとき，

\[ \mathbb E[\mathbb E[g(X)Y\vert X]] = \mathbb E[g(X)Y] \]

が成り立つ．

Proof

\(\mu_Y(x) = \mathbb E[Y\vert X = x]\) とする．このとき，

\[ \begin{align*} \mathbb E[g(X)\mathbb E[Y\vert X]] &= \mathbb E[g(X)\mu_Y(X))\\ &= \sum_{x\in\mathcal{X}}g(x)\mu_Y(x)f_X(x)\\ &= \sum_{x\in\mathcal{X}}g(x)\sum_{y\in\mathcal{Y}}y f_{Y\vert X}(y\vert x)f_X(x)\\ &= \sum_{x\in\mathcal{X}}g(x)\sum_{y\in\mathcal{Y}} y f(x, y)\\ &= \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}g(x)y f(x, y)\\ &= \mathbb E[g(X)Y] \end{align*} \]

Theorem 5.14 : CEF Decomposition Property

確率変数 \(X, Y\) について，

\[ Y = \mathbb E[Y\vert X] + \epsilon \]

としたとき，

\(\epsilon\) は \(X\) について mean-independent, つまり, \[\mathbb E[\epsilon\vert X] = 0\]
\(\epsilon\) は \(X\) の任意の関数に対して無相関, つまり, \[\operatorname{Cov}(h(X), \epsilon) = 0\]
\(\operatorname{Var}(\epsilon) = \mathbb E[\operatorname{Var}(Y\vert X)]\)

Proof

▶ (1)

\[ \begin{align*} \mathbb E[\epsilon\vert X] &= \mathbb E[Y - \mathbb E[Y\vert X]\vert X]\\ &= \mathbb E[Y\vert X] - \mathbb E[Y\vert X]\\ &= 0 \end{align*} \]

▶ (2)

\[ \begin{align*} \mathbb E[h(X)\epsilon] &= E[\mathbb E[h(X)\epsilon\vert X]]\\ &= E[h(X)\mathbb E[\epsilon\vert X]]\\ &= 0 \quad \because{\text{mean independence}} \end{align*} \]

▶ (3)

条件付き期待値の公式 \(\mathbb E[g(X, Y)] = \mathbb E_X[\mathbb E_{Y\vert X}[g(X, Y)\vert X]]\) より

\[ \begin{align*} \operatorname{Var}(\epsilon) &= \mathbb E[(Y - \mathbb E[Y\vert X] )^2]\\ &= \mathbb E\{\mathbb E[(Y - \mathbb E[Y\vert X])^2 \vert X]\}\\ &= \mathbb E[\operatorname{Var}(Y\vert X)] \end{align*} \]

CEF Decomposition Propertyは，確率変数 \(Y\) は確率変数 \(X\) で説明できるパートと，\(X\) の任意の関数と直行（orthogonal）な誤差項のパートに分解できることを示しています．

Theorem 5.15 : MSE minimizer

\(g(\cdot)\) を \(X\) の任意の関数とする．このとき，

\[ \mathbb E[(Y - g(X))^2] \geq \mathbb E[(Y - \mathbb E[Y\vert X])^2] \]

が成立する．つまり，\(\mathbb E[Y\vert X]\) は，\(X\) のすべての関数の中で，MSEの意味で \(Y\) の最良近似を与える．

Proof

\(\mu_Y(X) = \mathbb E[Y\vert X]\) とする．

\[ \begin{align*} \mathbb E[(Y - g(X))^2] =& \mathbb E[(Y - g(X) + \mu_Y(X) - \mu_Y(X))^2]\\[5pt] =& \mathbb E[(Y - \mu_Y(X))^2 + (\mu_Y(X)- g(X))^2\\ &+ 2(Y - \mu_Y(X))(\mu_Y(X)- g(X))]\\[5pt] =& \mathbb E[(Y - \mu_Y(X))^2] + \mathbb E[(\mu_Y(X)- g(X))^2]\\ &+ 2\mathbb E[(Y - \mu_Y(X))(\mu_Y(X)- g(X))]\\[5pt] =& \mathbb E[(Y - \mu_Y(X))^2] + \mathbb E[(\mu_Y(X)- g(X))^2]\\[5pt] \geq& \mathbb E[(Y - \mu_Y(X))^2] \end{align*} \]

Moments

Def: モーメント

\(0 < r < \infty\) を満たすような正の整数 \(r\) に対して，確率変数 \(X\) のthe r-th moment（原点周りのモーメント）は以下のように定義される

\[ \mathbb E[X^r] = \int_{\mathbb R} x^r \mathrm{d}F_X(x) \]

the r-th central moment(平均周りのモーメント)は \(\mathbb E[(X - \mathbb E[X])^r]\) と定義される．

原点周りのモーメントと平均周りのモーメントは以下のような関係で理解することができます．\(\mathbb E[X] = \mu\) とすると，

\[ \begin{align*} (X - \mu + \mu)^r &= \sum_{k=0}^k \left(\begin{array}{c}r\\ k\end{array}\right)(X - \mu)^k\mu^{r-k} \end{align*} \]

両辺の期待値をとると

\[ \begin{align*} \mathbb E[X^r] = \sum_{k=0}^k \left(\begin{array}{c}r\\ k\end{array}\right)\mathbb E[(X - \mu)^k]\mu^{r-k} \end{align*} \]

また，平均周りのモーメントを原点周りのモーメントで表すとなると，

\[ \begin{align*} (X - \mu)^r = \sum_{k=0}^r(-1)^{r-k}X^r\mu^{r-k} \end{align*} \]

同様に期待値をとると

\[ \begin{align*} \mathbb E[(X - \mu)^r] = \sum_{k=0}^r(-1)^{r-k}\mathbb E[X^r]\mu^{r-k} \end{align*} \]

Theorem 5.16 : higher moment and lower moment

\(\mathbb E[\vert X\vert^r] < \infty\) のとき，\(0 < q < r\) について，\(\mathbb E[\vert X\vert^q] < \infty\) が成立する．

Proof

関数 \(g:\mathbb R\to \mathbb R\) を

\[ g(x) = \vert x\vert^r + 1 \]

関数 \(g:\mathbb h\to \mathbb R\) を \(h(x) = \vert x\vert^q\) と定義する．\(0 < q < r\) より，

\[ h(x) < g(x) \quad \forall x \in \operatorname{support}(X) \]

このとき，

\[ \begin{align*} \int_{\mathbb{R}} |x|^r + 1 \mathrm{d}F &= \int_{\mathbb{R}} |x|^r\mathrm{d}F + \underbrace{\int_{\mathbb{R}} 1\mathrm{d}F}_{=1}\\ &> \int_{\mathbb{R}} |x|^s\mathrm{d}F \end{align*} \]

従って，

\[ \begin{align*} \infty &> \mathbb E[\vert X\vert^r] + 1\\ &> \int_{\mathbb{R}} |x|^q \mathrm{d}F \\ &= \mathbb E[\vert X\vert^q] \end{align*} \]

Theorem 5.17 : Mean minimizes squared error

確率変数 \(X\) について，\(\mathbb E[\vert X\vert^2]<\infty\) とする．このとき，

\[ \mathbb E[X] = \arg\min_b \mathbb E[(X - b)^2] \]

Proof

\(\mu_X = \mathbb E[X], \sigma^2 = \mathbb E[(X - \mu_X)^2]\) とおく．

\[ \begin{align*} E[(X - b)^2] &= \mathbb E[(X - \mu_X + \mu_X - b)^2]\\\ &= \mathbb E[(X - \mu_X)^2] + \mathbb E[(\mu_X - b)^2] + \mathbb E[(X - \mu_X)(\mu_x - b)]\\ &= \sigma^2 + \mathbb E[(\mu_X - b)^2] + (\mu_X - b)\mathbb E[X - \mu_X]\\ &= \sigma^2 + \mathbb E[(\mu_X - b)^2] \end{align*} \]

\(\mathbb E[(\mu_X - b)^2] \geq 0\) が成立し，また, 等号成立条件は \(\mu_X = b\)．従って，

\[ \mathbb E[X] = \arg\min_b \mathbb E[(X - b)^2] \]

Markov and Chebyshev Inequalities

確率変数 \(X\) について，確率密度関数や分布関数がわかっている状況は少ないです．また，データが得られたとしてもそれらを計算することはかんたんではありません．その中で，

\(X\) が mean \(\mu\) からどれくらい離れる可能性があるのか
\(\Pr(\vert X \leq a\vert )\) のupper boundはどれくらいか？

という統計的推測をしたいときに使用されるMarkov and Chebyshev Inequalitiesを解説します．

Theorem 5.18 Markov’s Inequality

non-negative 確率変数 \(X \geq 0\)，constant \(k >0\) について以下が成立する

\[ \Pr(X \geq k) \leq \frac{\mathbb E[X]}{k} \]

つまり，

\[ \Pr(X \geq k\mathbb E[X]) \leq \frac{1}{k} \]

Proof

\[ \begin{align*} \mathbb E[X] &= \int_0^\infty xf(x)\mathrm{d}x\\ &= \int_0^k xf(x)\mathrm{d}x + \int_k^\infty xf(x)\mathrm{d}x\\ &\geq \int_k^\infty xf(x)\mathrm{d}x\\ &\geq \int_k^\infty kf(x)\mathrm{d}x\\ &= k \Pr(X \geq k) \end{align*} \]

Proof: 変数変換

\[ Y = \begin{cases} 0 & \text{if} X < k\\[5pt] k & \text{if} X \geq k \end{cases} \]

のように変数変換をすると常に \(Y \leq X\) であるので \(\mathbb E[Y] \leq \mathbb E[X]\).

\[ \begin{align*} &\mathbb E[Y] = k\Pr(X\geq k)\\ \Rightarrow &\Pr(X\geq k)\leq \frac{\mathbb E[X]}{k} \end{align*} \]

Theorem 5.19 Markov’s Inequality with function

確率変数 \(X\) の関数 \(g(X)\) が \(g(X)\geq 0\) を満たすとする．任意の正の実数 \(c\in\mathbb R_{++}\) に対して

\[ \Pr(g(X)\geq c) \leq \frac{\mathbb E[g(X)]}{c} \]

が成立する．

Proof

\[ \begin{align*} \mathbb E[g(X)] &= \mathbb E[g(X)(\mathbb 1(g(X) \geq c) + \mathbb 1(g(X) < c) )]\\ &\geq \mathbb E[g(X)\mathbb 1(g(X) \geq c)]\\ &\geq c\mathbb E[\mathbb 1(g(X) \geq c)]\\ &= c\Pr(g(X)\geq c) \end{align*} \]

Theorem 5.20

確率変数 \(X\) の関数 \(g(X)\) が \(g(X)\geq 0\) かつ \(\mathbb E[g(X)] = 0\) を満たすとする．このとき，

\[ \Pr(g(X) = 0) = 1 \]

Proof

背理法で示します．\(\Pr(g(X) = 0) < 1\) とすると，ある \(c >0\) について \(\Pr(g(X) \geq c) > 0\) となります．

マルコフ不等式より，

\[ \Pr(g(X) \geq c) \leq \frac{\mathbb E[g(X)]}{c} = 0 \]

となるはずですが，これは \(\Pr(g(X) \geq c) > 0\) に矛盾．従って，．\(\Pr(g(X) = 0) = 1\) が成り立ちます．

📘 REMARKS

Markov’s inequalityは確率変数 \(X\) がnon-negative, population mean \(\mu\) の知識のみで使用可能
一方，bound幅は大きく，weakest inequalityである

Example 5.7

点数範囲が \(\Omega_x=[0, 110]\) の試験をついて，そのテストスコア確率変数 \(X\) を考える．分布の情報はわからないが population meanは 25 であることが知られている．このとき，\(\Pr(X \geq 100)\) のupper boundはMarkov’s inequalityを用いて以下のように計算できます．

\(X\) がnon-negativeなので

\[ \begin{align*} \Pr(X\geq 100) &\leq \frac{25}{100}\\ &= \frac{1}{4} \end{align*} \]

Example 5.8 : weak inequality

\(X_i \overset{\mathrm{iid}}{\sim} \operatorname{Bernoulli}(0.2)\) を20回繰り返す試行を考える．この試行の結果のアウトカムを \(Y\) としたとき，

\[ \Pr(Y \geq 16) = \sum_{k=16}^{20} {}_{20}C_{k} 0.2^k 0.8^{20-k} \approx 1.38\cdot 10^{-8} \]

一方，Markov’s inequalityを用いると

\[ \begin{align*} \Pr(Y \geq 16) \leq \frac{4}{16} = \frac{1}{4} \end{align*} \]

このように，bound幅は大きいことが分かる．

Theorem 5.21 Chebyshev’s inequality

\(X \sim D(\mu, \sigma^2)\) とする．ただし，\(D\) の形状はわからない．実数 \(\alpha >0\) について，以下が成立する

\[ \Pr(\vert X - \mu \vert \geq \alpha) \leq \frac{\sigma^2}{\alpha^2} \]

つまり，

\[ \Pr(\vert X - \mu \vert \geq \alpha \sigma) \leq \frac{1}{\alpha^2} \]

Proof

\(I = \{x: \vert x -\mu \vert \geq k\}\) とする．

\[ \begin{align*} \sigma^2 &= \int_{\mathbb R} (x - \mu)^2f(x)\mathrm{d}x\\ &\geq \int_{I} (x - \mu)^2f(x)\mathrm{d}x\\ &\geq \int_{I} k^2f(x)\mathrm{d}x\\ &= k^2 \Pr(\vert x - \mu\vert \geq k) \end{align*} \]

以上より，\(\displaystyle\Pr(\vert X - \mu \vert \geq k) \leq \frac{\sigma^2}{k^2}\) を得る．

Proof: using Markov’s inequality

\((x - \mu)^2\) を確率変数と考えると，non-negative確率変数になる，つまりMarkov’s inequalityを用いることができるので

\[ \begin{align*} \Pr(\vert x - \mu\vert \geq k) &= \Pr((x - \mu)^2 \geq k^2)\\ &\leq \frac{\mathbb E[(x - \mu)^2]}{k^2} \because{\text{Markov's inequality}}\\ &= \frac{\sigma^2}{k^2} \end{align*} \]

Example 5.9 Markov’s inequality vs Chebyshev’s inequality

\(X \sim \operatorname{Binom}(n=20, p=0.2)\) について，weak inequality で確認したように，Markov’s inequalityのより

\[ \Pr(X \geq 16) = \Pr(X \geq 4\mathbb E[X]) \leq \frac{1}{4} \]

一方，Chebyshev’s inequalityを用いると

\[ \begin{align*} \Pr(X \geq 16) &\leq \Pr(\vert X - 4\vert \geq 12)\\ &\leq \frac{\operatorname{Var}(X)}{12^2}\\ &\leq \frac{3.2}{12^2}\\ &= \frac{1}{45} \end{align*} \]

🍵 Green Tea Break

Chebyshev’s inequalityはMarkov’s inqualityと異なり，確率変数 \(X\) がnon-negativeである必要はない
meanからの距離についての情報を得ることができる

Example 5.10 : フェアなサイコロと出た目の範囲

\(n\) 回独立に６面のフェアなサイコロを投げる試行を考えます．このとき，6の目が出た回数 \(X\) が \([n/6 - \sqrt{n}, n/6 + \sqrt{n}]\) に収まる確率は exactに計算するには大変ですが，Chebyshev inequalityを用いてlower bouldを計算することができます．

サイコロをi回目投げたときに出た目について

\[ \begin{align*} Z_i = \left\{\begin{array}{cc} 1 & \text{if 6の目がでる}\\ 0 & \text{otherwise} \end{array}\right. \end{align*} \]

という確率変数を考えたとき，

\[ X = \sum_{i=1}^n Z_i \sim \operatorname{Binom}(n, 1/6) \]

と表すことができます．このときChebyshev inequalityより

\[ \begin{align*} P(\vert X - \mu \vert \geq k) \leq \frac{\sigma^2}{k^2}\\ \Rightarrow P(\vert X - \mu \vert \geq \sqrt{n}) \leq \frac{1}{n}\frac{5n}{36} = \frac{5}{36} \end{align*} \]

したがって，

\[ P(\vert X - \mu \vert < \sqrt{n}) \geq 1- \frac{5}{36} = \frac{31}{36} \]

▶ PythonでのBoundの確認

\(n\) の回数を増やしてlower-boundに近づいていくのか確認した所，そのような挙動は以下のように確認されませんでした．一方，正規分布での近似の値に収束していくことが確認できます．収束先の値 \(p^*\) は

\[ p^* = \Phi(1/\sqrt{5/36}) - \Phi(-1/\sqrt{5/36}) \approx 0.9927 \]

Code

import numpy as np
from scipy.stats import binom
import plotly.graph_objects as go
from scipy.stats import norm
from regmonkey_style import stylewizard as sw

sw.set_templates("regmonkey_twoline")

N = np.arange(1, 1000)
p = 1 / 6
norm_instance = norm(N / 6, np.sqrt(N * 5 / 36))

exact_prob = binom.cdf(N / 6 + np.sqrt(N), N, p) - binom.cdf(N / 6 - np.sqrt(N), N, p)
norm_approx = norm_instance.cdf(N / 6 + np.sqrt(N)) - norm(
    N / 6, np.sqrt(N * 5 / 36)
).cdf(N / 6 - np.sqrt(N))
lowerbound_prob = 31 / 36

# Create the plot
fig = go.Figure()

# Add exact probability line
fig.add_trace(
    go.Scatter(
        x=N, y=exact_prob, mode="lines", line=dict(width=3), name="Exact Probability"
    )
)

fig.add_trace(
    go.Scatter(
        x=N,
        y=norm_approx,
        mode="lines",
        line=dict(width=3),
        name="Normal-approx Probability",
    )
)

# Add approximate probability line
fig.add_trace(
    go.Scatter(
        x=N, y=[lowerbound_prob] * len(N), mode="lines", name="Lower-bound Probability"
    )
)

# Add labels and title
fig.update_layout(
    title="Exact vs normal-approx vs lower-bound Probability",
    xaxis_title="N (log-scale)",
    yaxis_title="Probability",
    legend=dict(x=0.8, y=0.99),
    yaxis_range=[0.85, 1.05],
        xaxis=dict(
        type='log',
        tickvals=[1, 10, 100, 1000, 10000, 100000],
        ticktext=['1', '10', '100', '1k', '10k', '100k']
    )
)

# Show the plot
fig.show()

Weak Law of Large Numbers

Theorem 5.22 Weak Law of Large Numbers

平均 \(\mu\), 分散 \(\sigma^2\) の分布に独立に従う確率変数 \(X_1, \cdots, X_n\) を考える．標本平均を \(\overline{X_n} = \frac{1}{n}\sum_{i=1}^nX_i\) とする．

このとき，任意の実数 \(\epsilon >0\) に対して，

\[ \lim_{n\to\infty}\Pr(\vert \overline{X_n} - \mu \vert > \epsilon) = 0 \]

つまり，標本平均は母平均に確率収束する．

Proof

Chebyshev’s inequalityを用いて以下のように示せる

\[ \begin{align*} \lim_{n\to\infty}\Pr(\vert \overline{X_n} - \mu \vert > \epsilon) &\leq \lim_{n\to\infty} \frac{\operatorname{Var}(\overline{X_n})}{\epsilon^2}\\ &= \lim_{n\to\infty} \frac{\sigma^2}{n\epsilon^2}\\ &=0 \end{align*} \]

Stein identity

Theorem 5.23 : スタインの等式

確率変数 \(X\sim N(\mu, \sigma^2)\) とする．\(g(\cdot)\) が微分可能で \(\mathbb E[\vert g^\prime(X)\vert]<\infty\) 及び \(\mathbb E[\vert g(X)\vert]<\infty\) のとき，

\[ \mathbb E[(X-\mu)g(X)] = \sigma^2\mathbb E[g^\prime(X)] \]

が成り立つ．

Proof

\[ \mathbb E[(X - \mu)g(X)] = \frac{1}{\sqrt{2\pi\sigma^2}}\int^\infty_{-\infty}g(x)(x-\mu)\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\,\mathrm{d}x \]

ここで，

\[ h(x) = -\sigma^2\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \]

とおくと，

\[ h^\prime(x) =(x-\mu)\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \]

従って，

\[ \begin{align*} \mathbb E[(X - \mu)g(X)] =& \frac{1}{\sqrt{2\pi\sigma^2}}[h(x)g(x)]^\infty_{-\infty} - \frac{1}{\sqrt{2\pi\sigma^2}}\int^\infty_{-\infty} g^\prime(x)h(x)\,\mathrm{d}x\\ =& \frac{1}{\sqrt{2\pi\sigma^2}}\left[-\sigma^2\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)g(x)\right]^\infty_{-\infty}\\ & + \frac{\sigma^2}{\sqrt{2\pi\sigma^2}}\int^\infty_{-\infty} g^\prime(x)\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\,\mathrm{d}x\\ =& \sigma^2\mathbb E[g^\prime(X)] \end{align*} \]

▶ スタインの等式とモーメント計算

\(m\) 次のモーメントは

\[ \begin{align*} \mathbb E[X^m] &= \mathbb E[(X - \mu)X^{m-1} + \mu X^{m-1}]\\ &= \mathbb E[(X - \mu)X^{m-1}] + \mu \mathbb E[X^{m-1}] \end{align*} \]

ここでスタインの等式を用いると

\[ \mathbb E[(X - \mu)X^{m-1}] = \sigma^2\mathbb E[(m-1)X^{m-2}] \]

従って，

\[ \mathbb E[X^m] = \sigma^2\mathbb E[(m-1)X^{m-2}] + \mu \mathbb E[X^{m-1}] \]

分散

Theorem 5.24 : Bienaymé Equality

互いに独立な確率変数 \(X, Y\) について以下が成立する

\[ \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) \]

Proof

\[ \begin{align*} \operatorname{Var}(X+Y) &= \mathbb E[((X+Y) - (\mu_X+\mu_Y))^2]\\ &= \mathbb E[((X- \mu_X)+(Y - \mu_Y))^2]\\ &= \mathbb E[(X- \mu_X)^2] + 2\mathbb E[(X- \mu_X)(Y- \mu_Y)] + \mathbb E[(Y- \mu_Y)^2]\\ &= \mathbb E[(X- \mu_X)^2] + 2\mathbb E[(X- \mu_X)]\mathbb E[(Y- \mu_Y)] + \mathbb E[(Y- \mu_Y)^2] \quad \because{\text{独立性}}\\ &= \operatorname{Var}(X) + \operatorname{Var}(Y) \end{align*} \]

なお，確率変数 \(X, Y\) が独立ではない場合は

\[ \operatorname{Var}(X + Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{Cov}(X, Y) \]

が成立します．\(\mu_X = \mathbb E[X], \mu_Y = \mathbb E[Y]\) とすると，

\[ \begin{align*} \operatorname{Var}(X+Y) &= \mathbb E[(X+Y - \mu_x - \mu_y)^2]\\ &= \mathbb E[(X-\mu_x)^2] + 2\mathbb E[(X-\mu_x)(Y-\mu_y)] + \mathbb E[(Y-\mu_y)^2]\\ &= \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{Cov}(X,Y) \end{align*} \]

Theorem 5.25 : n個の確率変数の和の分散

確率変数 \(X_1, \cdots, X_n\), それぞれの期待値が存在し \(\mu_1, \cdots, \mu_n\) と表せるとき，

\[ \operatorname{Var}(X_1+X_2 + \cdots + X_n) = \sum_i^n \operatorname{Var}(X_i) + 2\sum_{i<j}\operatorname{Cov}(X_i, X_j) \]

Proof

\[ \begin{align*} \operatorname{Var}(X_1+\cdots+X_n) &= \mathbb E\left[(X_1+\cdots+X_n - \mu_1 - \cdots - \mu_n)^2\right]\\[5pt] &= \mathbb E\left[\{(X_1+\mu_1)\cdots + \cdots + (X_n - \mu_n)\}^2\right]\\[5pt] &= \mathbb E\left[\sum (X_i - \mu_i)^2 + 2\sum_{i<j}(X_i - \mu_i)(X_j-\mu_j)\right]\\[5pt] &= \sum \mathbb E[(X_i - \mu_i)^2] +2\sum_{i<j}\mathbb E[(X_i - \mu_i)(X_j-\mu_j)]\\ &= \sum_i^n \operatorname{Var}(X_i) + 2\sum_{i<j}\operatorname{Cov}(X_i, X_j) \end{align*} \]

条件付き分散

確率変数 \(X, Y\) についての条件付き分散は以下のような意味を持つ

\(\operatorname{Var}(X\vert Y=y)\) は，\(Y = y\) と固定したときの \(X\) の分散
\(\operatorname{Var}(X\vert Y)\) は，\(Y\) がランダムに選ばれた値に固定された場合の \(X\) の分散

\(\operatorname{Var}(X\vert Y)\) は \(Y\) のランダムネスに依存した確率変数である一方， \(\operatorname{Var}(X\vert Y=y)\) は \(y\) の関数という違いがある

Def: 条件付き分散

\[ \operatorname{Var}(Y\vert X) = \mathbb E[(Y^2\vert X)] - (\mathbb E[(Y\vert X)])^2 = \mathbb E[(Y - \mathbb E[Y\vert X])^2\vert X] \]

Theorem 5.26 Law of Total Variance

\[ \operatorname{Var}(Y) = \operatorname{Var}(\mathbb E[Y\vert X]) + \mathbb E_X[\operatorname{Var}(Y\vert X)] \]

Proof

\(\epsilon = Y - \mathbb E[Y\vert X]\) としたとき，\(\epsilon\) と \(\mathbb E[Y\vert X]\) は無相関なので，

\[ \operatorname{Var}(Y) = \operatorname{Var}(\mathbb E[Y\vert X]) + \operatorname{Var}(\epsilon) \]

\(\mathbb E[\epsilon] = 0\) より，

\[ \begin{align*} \operatorname{Var}(\epsilon) &= \mathbb E[\epsilon^2] - (\mathbb E[\epsilon])^2\\ &= \mathbb E[\epsilon^2]\\ &= \mathbb E_X(\mathbb E[\epsilon^2\vert X])\\ &= \mathbb E_X[\operatorname{Var}(Y\vert X)] \end{align*} \]

従って，

\[ \operatorname{Var}(Y) = \operatorname{Var}(\mathbb E[Y\vert X]) + \mathbb E_X[\operatorname{Var}(Y\vert X)] \]

Law of Total Varianceより \(Y\) の分散は，CEFの分散 + 誤差項の分散に分解できることを示しています．実務における分析において，賃金のバラツキを

賃金を説明する各個人の特徴のバラツキ
特徴で説明することのできない賃金のバラツキ(=誤差項)の期待値

に分解して考察する際にLaw of Total Varianceを使用したりします．

歪度と尖度

\(X_1\sim N(1, 1)\) と \(X_2\sim\operatorname{Exponential}(1)\) を２つの分布を考えます．どちらも平均，分散共に 1 で一致していますが以下のように分布の形状は大きく異なります．

Code

import numpy as np
import plotly.express as px
import polars as pl

np.random.seed(42)
n = 1000

x1 = np.random.normal(loc=1, scale=1, size=n)
x2 = np.random.exponential(scale=1, size=n)

df = pl.DataFrame({"normal_dist": x1, "exp_dist": x2})

px.histogram(df, histnorm="probability density",
             opacity=0.8, barmode="overlay",
             title='Exp(1) vs Normal(1, 1): same mean and variance')

平均や分散(locationとscale)によって確率分布の様子はある程度わかりますが，locationとscaleが同じにもかかわらず上記の指数分布は \(N(1, 1)\) に対して，右の裾が長い分布になっています．分布の非対称性や尖りの程度を理解するにあたって尖度と歪度を用いることがあります．

Def: 歪度(skewness)と尖度(kurtosis)

確率変数 \(X\) について，歪度と尖度は以下のように定義される

\[ \begin{gather*} \operatorname{skewness} = \mathbb E\left[\left(\frac{X - \mathbb E[X]}{\sqrt{\operatorname{Var}(X)}}\right)^3\right]\\ \operatorname{kurtosis} = \mathbb E\left[\left(\frac{X - \mathbb E[X]}{\sqrt{\operatorname{Var}(X)}}\right)^4\right] \end{gather*} \]

🍵 Green Tea Break

skewnessはpositiveならば右の裾が長く，negativeならば左に裾が長い, 0ならば対称分布
kurtosisは大きいほど，鋭いピークと長く太い裾をもった分布になる
skewness,kurtosisともに標準化してから3rd-moment, 4th-momentを計算しているので，non-zeroの \(a, b\) を定数としたとき，\(aX + b\) と変数変換を行っても，計算結果は変わらない = 尺度の変換関して不変

Example 5.11 : 一様分布の歪度と尖度

\(X\sim\operatorname{Unif}(0, 1)\) としたとき，一様分布はlocationから左右対称の分布なので計算することなく

\[ \operatorname{skewness} = 0 \]

とわかる．一方，尖度は

\[ \begin{align*} \operatorname{kurtosis} &= \frac{1}{\sigma^4}\int_0^1 \left(x - \frac{1}{2}\right)^4\mathrm{d}x\\ &= 144 \times \frac{1}{5}\left[\left(x - \frac{1}{2}\right)^5\right]^1_0\\ &= \frac{9}{5} \end{align*} \]

標準正規分布の尖度を基準にして

\[ \operatorname{kurtosis} = \frac{9}{5}-3=-\frac{6}{5} \]

と表現する場合もある