確率的変動を考慮する際に,ランダムネスを要約した統計量として期待値を用いる場面は多いです.例えば, マーケティング担当者は,プロモーションの提供によって得られるリターンの期待値に基づいてプロモーションの実施を判断しますし, 投資家はさまざまな金融商品の期待リターンとリスクに基づいてポートフォリオを選択したりします.
期待値の性質
Def: 連続確率変数の期待値
\(f\) を確率変数 \(X\) の確率密度関数とする.\(\int_{\mathbb R} \vert x\vert f(x) \mathrm{d}x < \infty\) のとき,\(X\) の期待値は以下のように定義する:
\[
\mathbb E[X] = \int_{\mathbb R} x f(x) \mathrm{d}x
\]
また,\(X\) の関数 \(g(X)\) の期待値は \(\int_{\mathbb R} \vert g(x)\vert f(x) \mathrm{d}x < \infty\) ならば
\[
\mathbb E[g(X)] = \int_{\mathbb R} g(x) f(x) \mathrm{d}x
\]
定義より確率密度関数で重みづけた平均が確率変数の期待値になると解釈することができます.meanは分布の位置を表すパラメーターとも解釈できるので location parameter(位置母数) と呼ぶこともあります.一方,標準偏差 \(\sigma\) はscale parameter(尺度母数) といいます.
Example 5.1 指数分布の期待値
rate parameter \(\lambda\) の指数分布に従う確率変数 \(X\) を考えます.
\[
\begin{align*}
\mathbb E[X] &= \int^\infty_0 x \lambda \exp(-\lambda x)\mathrm{d}x\\
&= \bigg[-x\exp(-\lambda x)\bigg]^\infty_0 + \int^\infty_0 \exp(-\lambda x)\mathrm{d}x\\
&= \int^\infty_0 \exp(-\lambda x)\mathrm{d}x\\
&= -\frac{1}{\lambda}\bigg[\exp(-\lambda x)\bigg]^\infty_0\\
&= \frac{1}{\lambda}
\end{align*}
\]
指数分布は電球の寿命などに応用される分布ですが,rate parameter \(\lambda\) が小さいほど期待値(= 電球の寿命)が大きくなることが分かります.
Example 5.2 期待値が定義できない離散分布
確率変数 \(X\) のsupportを加算集合 \(\{2, 2^2, 2^3, \cdots\}\) とする.確率関数を
\[
\Pr(X = 2^i) = \frac{1}{2^i} \quad (i = 1, 2, \cdots)
\]
このとき,
\[
\sum_{i=1}^\infty \Pr(X=2^i) = \sum_{i=1}^\infty\frac{1}{2^i} = 1
\]
と確率の公理を満たしていることが分かる.一方,
\[
\begin{align*}
\mathbb E[X]
&= \sum_{i=1}^\infty 2^i \frac{1}{2^i}\\
&= \sum_{i=1}^\infty 1 = \infty
\end{align*}
\]
従って,確率変数 \(X\) の分布は,期待値が定義できない分布であることがわかる.
Example 5.3 期待値が定義できない連続分布
確率密度関数 \[
f(x) = \begin{cases}
0 & x < 1\\
\frac{1}{x^2} & x\geq 1
\end{cases}
\]
という確率変数 \(X\) を考える.
\[
\begin{align*}
\int_1^\infty f(x) \mathrm{d}x
&= \left[\frac{1}{x}\right]^1_\infty = 1
\end{align*}
\]
一方,
\[
\begin{align*}
\mathbb E[X]
&= \int_1^\infty xf(x) \mathrm{d}x\\
&= \int_1^\infty\frac{1}{x}\mathrm{d}x\\
&= \left[\log(x)\right]_1^\infty = \infty
\end{align*}
\]
従って,確率変数 \(X\) の分布は,期待値が定義できない分布であることがわかる.
▶ 離散確率変数の変数変換と期待値
離散型確率変数 \(X\) について \(Y = g(X)\) を考えたとき,\(A_y = \{x\vert g(x)=y\}\) とおくと
\[
\begin{align*}
\mathbb E[g(X)]
&= \sum_x p(x)g(x)\\
&= \sum_y\sum_{A_y} p(x)g(x)\\
&= \sum_y\sum_{A_y} p(x)y\\
&= \sum_y y \sum_{A_y} p(x)\\
&= \sum_y \Pr(Y=y)y\\
&= \mathbb E[Y]
\end{align*}
\]
上の式展開では, \(\Pr(X=x) = p(x)\) としています.
▶ 期待値と重心
期待値の解釈の1つとして 確率変数 \(X\) の重心と考えるパターンがあります.\(x_i\) の値を \(p_i\) の確率でとる離散型確率変数 \(X\) の場合,
重さのない棒の中央を原点とする
原点から右側をプラス,左側をマイナスとして,原券からの距離 \(x_i\) の場所に重さ \(p_i\) のおもりを吊り下げる
このとき,重心 \(\mu\) はモーメントの釣り合い = 右回りモーメントが0になる地点となりますが
\[
\begin{align*}
\text{右回りモーメント}
&= \sum_i (x_i - \mu)p_i\\
&= \sum x_ip_i - \sum_i p_i \mu\\
&= \mathbb E[X] - \mu = 0
\end{align*}
\]
従って,\(\mathbb E[X] = \mu\) より,期待値と重心が対応することがわかります.連続型確率変数でも確率密度関数を重さのある棒の断面積と みなすことで離散型と同じく期待値と重心が対応することを確かめることができます.
Theorem 5.1 Tail probabilities
\([0, b]\) の定義域をもつ非負確率変数 \(X\) を考える.\(F\) を累積分布関数とするとき
\[
\mathbb E[X] = \int_0^b (1 - F(x))\mathrm{d}x
\]
\[
\bigg[xF(x)\bigg]^b_0 = \int^b_0xf(x) \mathrm{d}x + \int^b_0F(x) \mathrm{d}x
\]
を用いると
\[
\begin{align*}
\mathbb E[X] &= b - \int^b_0F(x) \mathrm{d}x\\
&= \int^b_0 1 \mathrm{d}x - \int^b_0F(x) \mathrm{d}x\\
&= \int_0^b (1 - F(x))\mathrm{d}x
\end{align*}
\]
Theorem 5.2 Tail probabilities
\(\mathbb E[\vert X\vert]<\infty\) をもつ非負の確率変数 \(X\) について,\(F(x)\) を分布関数とすると
\[
\mathbb E[X] = \int_0^\infty (1 - F(x))\mathrm{d}x
\]
\[
\begin{align*}
\int_0^\infty (1 - F(x))\mathrm{d}x
&= \int_0^\infty \Pr(X\geq x)\mathrm{d}x\\
&= \int_0^\infty \mathbb E[\mathbb 1(X\geq x)]\mathrm{d}x\\
&= \int_0^\infty \int_0^\infty \mathbb 1(X\geq x) \mathrm{d}F(x)\mathrm{d}x\\
&= \int_0^\infty \left\{\int_0^\infty \mathbb 1(X\geq x) \mathrm{d}x\right\}\mathrm{d}F(x) \quad\because\text{積分の順序交換}\\
&= \mathbb E\left[\int_0^\infty \mathbb 1(X\geq x) \mathrm{d}x\right]\\
&= \mathbb E\left[\int_0^X 1 \mathrm{d}x\right]\\
&= \mathbb E[X]
\end{align*}
\]
\(\lim_{b\to\infty}\bigg[x(1 - F(x))\bigg]^b_0\) について,\(\lim_{b\to\infty}b(1 - F(b))=0\) とは限らない点に注意が必要です.
Theorem 5.3
\([0, \infty)\) の定義域をもつ非負確率変数 \(X\) を考える.\(\mathbb E[\vert X^{p+1} \vert] <\infty\) が定義可能及び, \(F\) を累積分布関数とするとき
\[
\mathbb E[X^p] = \int_0^\infty px^{p-1} (1 - F(x))\mathrm{d}x \quad \text{where } p > 0
\]
\[
\begin{align*}
\bigg[x^p(1 - F(x))\bigg]^\infty_0 = \int^\infty_0 p x^{p-1}(1 -F(x))\mathrm{d}x - \int^\infty_0 x^{p}f(x)\mathrm{d}x
\end{align*}
\]
\(\text{RHS} = 0\) であるので
\[
\mathbb E[X^p] = \int_0^\infty px^{p-1} (1 - F(x))\mathrm{d}x
\]
Example 5.4 : Discrete Tail Probability
同様の考えで定義域を \(0,1,2,3,\cdots\) とする離散確率変数 \(X\) について
\[
\mathbb E[X] = \sum_{k=0}^\infty \Pr(X > k)
\]
が成立します.
\[
\begin{align*}
\Pr(X > k) &= \Pr(X = k+1) + \Pr(X = k+2) + \cdots\\
&= \sum_{l=k+1}^\infty \Pr(X=l)
\end{align*}
\]
従って,
\[
\begin{align*}
\sum_{k=0}^\infty \Pr(X > k) &= \sum_{k=0}^\infty \sum_{l=k+1}^\infty \Pr(X=l)\\
&= \sum_{l=1}^\infty\sum_{k=0}^{l-1}\Pr(X=l) \quad\because \Pr(X=l) > 0 \\
&= \sum_{l=1}^\infty l\Pr(X=l)\\
&= \sum_{l=0}^\infty l\Pr(X=l)\\
&= \mathbb E[X]
\end{align*}
\] \[\tag*{\(\blacksquare\)}\]
Example 5.5
\(0,1,2,3,\cdots\) とする離散確率変数 \(X\) について
\[
\mathbb E[X^2] = \sum_{k=0}^\infty \Pr(X > k)(2k+1)
\]
も成立する.
\[
\begin{align*}
\sum_{k=0}^\infty \Pr(X > k)(2k+1)
&= \sum_{k=0}^\infty \sum_{l=k+1}^\infty \Pr(X=l)(2k+1)\\
&= \sum_{l=1}^\infty \sum_{k=0}^{l-1}\Pr(X=l)(2k+1)\\
&= \sum_{l=1}^\infty \Pr(X=l)\sum_{k=0}^{l-1}(2k+1)\\
&= \sum_{l=1}^\infty l^2\Pr(X=l)\\
&= \mathbb E[X^2]
\end{align*}
\]
\[\tag*{\(\blacksquare\)}\]
Theorem 5.4 期待値の線型性
\(a, b\) を実数,確率変数 \(X, Y\) について以下が成り立つ
\[
\mathbb E[aX + bY] = a\mathbb E[X] + b\mathbb E[Y]
\]
確率変数 \(X, Y\) が有限加算な標本空間で定義されているケースにて以下を示す.
\(\mathbb E[X + Y] = \mathbb E[X] + \mathbb E[Y]\)
\(\mathbb E[cX] = c\mathbb E[X]\)
▶ 1. \(\mathbb E[X + Y] = \mathbb E[X] + \mathbb E[Y]\)
確率変数 \(X\) は \(\{x_1, \cdots, x_m\}\) , 確率変数 \(Y\) は \(\{y_1, \cdots, y_n\}\) の値をそれぞれ取りうるとする. このとき,\(Z = X + Y\) の標本空間 \(\{z_1, \cdots, z_k\}\) について \(k\leq m + n\) が成り立つ.
\(A_l = \{(i,j): x_i + y_j = z_l\}\) としたとき,
\[
\begin{align*}
\mathbb E[X+Y]
&= \sum_{l=1}^kz_l\Pr(A_l)\\
&= \sum_{l=1}^k\sum_{(i,j)\in Z_l}(x_i + y_j)\Pr(x_i, y_j)\\
&= \sum_{i=1}^m\sum_{j=1}^n(x_i + y_j)\Pr(x_i, y_j)\\
&= \sum_{i=1}^m\sum_{j=1}^nx_i\Pr(x_i, y_j) + y_j\Pr(x_i, y_j)\\
&= \sum_{i=1}^m\sum_{j=1}^n[x_i\Pr(x_i, y_j) + y_j\Pr(x_i, y_j)]\\
&= \sum_{i=1}^mx_i\sum_{j=1}^nPr(x_i, y_j) + \sum_{j=1}^ny_j\sum_{i=1}^m\Pr(x_i, y_j)\\
&=\sum_{i=1}^mx_i \Pr(x_i) + \sum_{j=1}^ny_j \Pr(y_j)\\
&= \mathbb E[X] + \mathbb E[Y]
\end{align*}
\]
▶ 2. \(\mathbb E[cX] = c\mathbb E[X]\)
\[
\begin{align*}
\mathbb E[cX]
&= \sum_{i=1}^m cx_i = \Pr(cX = cx_i)\\
&= c\sum_{i=1}^m x_i = \Pr(X = x_i)\\
&= c\mathbb E[X]
\end{align*}
\]
期待値の線型性定理 の応用として, 期待値が定義できるという前提の下,
\[
\begin{align*}
\mathbb E[g(X, Y) + h(X, Y)] &= \mathbb E[g(X, Y)] + \mathbb E[h(X, Y)]\\
\mathbb E[ag(X, Y) + b] &= a\mathbb E[g(X, Y)] + b \quad (a, b \text{: constants})
\end{align*}
\] が成り立ちます.
\[
\begin{align*}
\mathbb E[g(X, Y) + h(X, Y)]
&= \int_{\mathbb R}\int_{\mathbb R}(g(x, y) + h(x, y))f(x, y) \,\mathrm{d}x\,\mathrm{d}y\\
&= \int_{\mathbb R}\int_{\mathbb R}g(x, y)f(x, y) \,\mathrm{d}x\,\mathrm{d}y + \int_{\mathbb R}\int_{\mathbb R}h(x, y)f(x, y) \,\mathrm{d}x\,\mathrm{d}y\\
&= \mathbb E[g(X, Y)] + \mathbb E[h(X, Y)]
\end{align*}
\]
上記のように確認できます.
Example 5.6 : 変数変換と分散
mean \(\mu\) をもつ確率変数 \(X\) と実数 \(a, b\) について
\[
\operatorname{Var}(aX + b) = a^2\operatorname{Var}(X)
\]
が成立します.証明は以下,
\[
\begin{align*}
\operatorname{Var}(aX + b)
&= \mathbb E[(aX + b) - (a\mu +b)^2]\\
&= \mathbb E[a^2(X - \mu)^2]\\
&= a^2 \mathbb E[(X - \mu)^2]\\
&= a^2\operatorname{Var}(X)
\end{align*}
\]
\[\tag*{\(\blacksquare\)}\]
Theorem 5.5 : 確率変数の標準化
確率変数 \(X\) について, \(\mathbb E[X] = \mu, \operatorname{Var}(X) =\sigma^2\) が存在するとき,
\[
Z = \frac{X - \mu}{\sigma}
\]
とおくと,\(\mathbb E[Z] = 0, \operatorname{Var}(Z) = 1\) が成立する.
\[
\begin{align*}
\mathbb E[Z]
&= \mathbb E\left[\frac{X - \mu}{\sigma}\right]\\
&= \frac{\mathbb E[X] - \mu}{\sigma}\\
&= 0
\end{align*}
\]
\[
\begin{align*}
\operatorname{Var}(Z)
&= \mathbb E[Z^2]\\
&= \mathbb E\left[\frac{(X - \mu)^2}{\sigma^2}\right]\\
&= \frac{\sigma^2}{\sigma^2}\\
&= 1
\end{align*}
\]
Theorem 5.6 positive operator
確率変数 \(X, Y\) について,\(X\geq Y\) が成り立つとき,
\[
\mathbb E[X] \geq \mathbb E[Y]
\]
\(X\geq Y\) より \(X - Y \geq 0\) . 期待値はpositive operatorなので
\[
\mathbb E[X - Y] \geq 0
\]
従って,期待値の線型性を用いると
\[
\begin{align*}
\mathbb E[X - Y] &= \mathbb E[X] - \mathbb E[Y] \geq 0
\end{align*}
\]
Theorem 5.7
確率変数 \(X\) について,
\[
\mathbb E[\vert X \vert] \geq \vert \mathbb E[X] \vert
\]
\(\vert X\vert \geq X\) より
\[
\mathbb E[\vert X \vert] \geq \mathbb E[X]
\]
また, \(\vert X\vert + X \geq 0\) より,\(\mathbb E[\vert X\vert + X] \geq 0\) , つまり,
\[
\mathbb E[\vert X \vert] \geq -\mathbb E[X]
\]
以上より,\(\mathbb E[\vert X \vert] \geq \vert \mathbb E[X] \vert\)
Theorem 5.8 Schwarz inquality
確率変数 \(X, Y\) についてシュワルツの不等式が成立することを示せ
\[
\left(\mathbb E[XY]\right)^2 \leq \mathbb E[X^2]\mathbb E[Y^2]
\]
Quadratic functionを以下のように定義します
\[
\begin{align*}
g(t)
&= \mathbb E[(tX - Y)^2]\\
&= t^2\mathbb E[X^2] - 2t\mathbb E[XY] + E[Y^2]\\
&\geq 0
\end{align*}
\]
このとき,\(g(t)\) はnon-negativeなので判別式について以下が成立する
\[
D/4 = \left(\mathbb E[XY]\right)^2 - \mathbb E[X^2]\mathbb E[Y^2]\leq 0
\]
従って,\(\left(\mathbb E[XY]\right)^2 \leq \mathbb E[X^2]\mathbb E[Y^2]\)
Theorem 5.9 : Triangle inequality
確率変数 \(X, Y\) について,以下のような三角不等式が成立することを示せ
\[
\sqrt{\mathbb E[(X+Y)^2]} \leq \sqrt{\mathbb E[X^2]} + \sqrt{\mathbb E[Y^2]}
\]
シュワルツの不等式を用いて以下のように示せる
\[
\begin{align*}
\mathbb E[(X+Y)^2]
&= \mathbb E[X^2] + 2\mathbb E[XY] + \mathbb E[Y^2]\\
&= \mathbb E[X^2] + 2\sqrt{(\mathbb E[XY])^2} + \mathbb E[Y^2]\\
&\leq \mathbb E[X^2] + 2\sqrt{\mathbb E[X^2]\mathbb E[Y^2]} + \mathbb E[Y^2]\\
&= (\sqrt{\mathbb E[X^2]} + \sqrt{\mathbb E[Y^2]})^2
\end{align*}
\]
両辺について,square rootをとると,
\[
\sqrt{\mathbb E[(X+Y)^2]} \leq \sqrt{\mathbb E[X^2]} + \sqrt{\mathbb E[Y^2]}
\]
独立な確率変数と期待値
Theorem 5.10 互いに独立な確率変数の積の期待値
\(\mathbb E[\vert X\vert ]<\infty, \mathbb E[\vert Y\vert ]<\infty\) を満たす, 確率空間 \((\Omega, \mathscr{F},P)\) 上で定義された確率変数 \(X, Y\) を考える. \(X \perp Y\) であるとき,次が成立する
\[
\mathbb E[XY] = \mathbb E[X]\mathbb E[Y]
\]
\[
\begin{align*}
\mathbb E[XY] &= \int\int_\Omega xy f(x, y)\mathrm{d}x\mathrm{d}y\\
&= \int\int_\Omega xy f_X(x)f_Y(y)\mathrm{d}x\mathrm{d}y \quad\because{\text{independence}}\\
&= \left(\int xf_X(x)\mathrm{d}x\right)\left(\int yf_Y(y)\mathrm{d}y\right)\\
&= \mathbb E[X]\mathbb E[Y]
\end{align*}
\]
Theorem 5.11 互いに独立な確率変数についての関数の積の期待値
\(\mathbb E[\vert X\vert ]<\infty, \mathbb E[\vert Y\vert ]<\infty\) を満たす, 確率空間 \((\Omega, \mathscr{F},P)\) 上で定義された確率変数 \(X, Y\) を考える. また,関数 \(g(X)\) , \(h(Y)\) は期待値が存在するとする.\(X \perp Y\) であるとき,次が成立する
\[
\mathbb E[g(X)h(Y)] = \mathbb E[g(X)]\mathbb E[h(Y)]
\]
\(X \perp Y\) なので,確率密度関数について \(f(x, y) = f_X(x)f_Y(y)\) が成立します.
\[
\begin{align*}
\mathbb E [g(X)h(Y)]
&= \int_{\mathbb R}\int_{\mathbb R}g(x)h(x)f(x, y)\,\mathrm{d}x\,\mathrm{d}y\\
&= \int_{\mathbb R}\int_{\mathbb R}g(x)h(x)f(x, y)\,\mathrm{d}x\,\mathrm{d}y\\
&= \left\{\int_{\mathbb R}g(x)f_X(x)\,\mathrm{d}x\right\}\left\{\int_{\mathbb R}h(x)f_Y(y)\,\mathrm{d}y\right\}\\
&= \mathbb E[g(X)]\mathbb E[h(Y)]
\end{align*}
\]
条件付き期待値
Theorem 5.12 Law of Total Expectation
\[
\mathbb E[Y] = \mathbb E[\mathbb E[Y\vert X]]
\]
▶ 連続確率変数の場合
\[
\begin{align*}
\mathbb E[\mathbb E[Y\vert X]]
&= \int \mathbb E[Y\vert X=u]f_X(u)\mathrm{d}u\\
&= \int \left[\int t f_Y(t\vert x=u)\mathrm{d}t\right]f_X(u)\mathrm{d}u\\
&= \int \int t f_Y(t\vert x=u)f_X(u)\mathrm{d}u\mathrm{d}t\\
&= \int t\left[\int f_{X,Y}(u, t)\mathrm{d}u\right]\mathrm{d}t\\
&= \int t f_Y(t)\mathrm{d}t\\
&= \mathbb E[Y]
\end{align*}
\]
▶ 離散確率変数の場合
\[
\begin{align*}
\mathbb E[\mathbb E[Y\vert X]]
&= \sum_{x\in \mathcal{X}}\mathbb E[Y\vert X] f_X(x)\\
&= \sum_{x\in \mathcal{X}}\sum_{y\in \mathcal{Y}} y f_{Y\vert X}(y \vert x) f_X(x)\\
&= \sum_{x\in \mathcal{X}}\sum_{y\in \mathcal{Y}} y f(x, y)\\
&= \sum_{y\in \mathcal{Y}}y f_Y(y)\\
&= \mathbb E[Y]
\end{align*}
\]
LTEの法則より
\[
\begin{align*}
\mathbb E[Y] &= \mathbb E[\mathbb E[Y\vert X, Z]]\\
\mathbb E[Y\vert X] &= \mathbb E[\mathbb E[Y\vert X, Z]\vert X]
\end{align*}
\]
が成立します.
なお,\(\mathbb E[Y\vert X], \mathbb E[Y\vert X=x]\) の違いには注意が必要です.前者は確率変数ですが, 後者は確率変数の実現値の取りうる値を表しています.\(X\) を \(x_1, \cdots, x_k\) の値を取る離散確率変数とすると, \(\mathbb E[Y\vert X]\) は \(k\) 個の値を取る離散確率変数となります.
Theorem 5.13
\(g(\cdot)\) を \(\mathbb E[g(X)Y] < \infty\) を満たす \(X\) の任意の関数とする.このとき,
\[
\mathbb E[\mathbb E[g(X)Y\vert X]] = \mathbb E[g(X)Y]
\]
が成り立つ.
\(\mu_Y(x) = \mathbb E[Y\vert X = x]\) とする.このとき,
\[
\begin{align*}
\mathbb E[g(X)\mathbb E[Y\vert X]]
&= \mathbb E[g(X)\mu_Y(X))\\
&= \sum_{x\in\mathcal{X}}g(x)\mu_Y(x)f_X(x)\\
&= \sum_{x\in\mathcal{X}}g(x)\sum_{y\in\mathcal{Y}}y f_{Y\vert X}(y\vert x)f_X(x)\\
&= \sum_{x\in\mathcal{X}}g(x)\sum_{y\in\mathcal{Y}} y f(x, y)\\
&= \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}g(x)y f(x, y)\\
&= \mathbb E[g(X)Y]
\end{align*}
\]
Theorem 5.14 : CEF Decomposition Property
確率変数 \(X, Y\) について,
\[
Y = \mathbb E[Y\vert X] + \epsilon
\]
としたとき,
\(\epsilon\) は \(X\) について mean-independent, つまり, \[\mathbb E[\epsilon\vert X] = 0\]
\(\epsilon\) は \(X\) の任意の関数に対して無相関, つまり, \[\operatorname{Cov}(h(X), \epsilon) = 0\]
\(\operatorname{Var}(\epsilon) = \mathbb E[\operatorname{Var}(Y\vert X)]\)
▶ (1)
\[
\begin{align*}
\mathbb E[\epsilon\vert X]
&= \mathbb E[Y - \mathbb E[Y\vert X]\vert X]\\
&= \mathbb E[Y\vert X] - \mathbb E[Y\vert X]\\
&= 0
\end{align*}
\]
▶ (2)
\[
\begin{align*}
\mathbb E[h(X)\epsilon] &= E[\mathbb E[h(X)\epsilon\vert X]]\\
&= E[h(X)\mathbb E[\epsilon\vert X]]\\
&= 0 \quad \because{\text{mean independence}}
\end{align*}
\]
▶ (3)
条件付き期待値の公式 \(\mathbb E[g(X, Y)] = \mathbb E_X[\mathbb E_{Y\vert X}[g(X, Y)\vert X]]\) より
\[
\begin{align*}
\operatorname{Var}(\epsilon)
&= \mathbb E[(Y - \mathbb E[Y\vert X] )^2]\\
&= \mathbb E\{\mathbb E[(Y - \mathbb E[Y\vert X])^2 \vert X]\}\\
&= \mathbb E[\operatorname{Var}(Y\vert X)]
\end{align*}
\]
CEF Decomposition Propertyは,確率変数 \(Y\) は確率変数 \(X\) で説明できるパートと,\(X\) の任意の関数と直行(orthogonal) な誤差項のパートに分解できることを示しています.
Theorem 5.15 : MSE minimizer
\(g(\cdot)\) を \(X\) の任意の関数とする.このとき,
\[
\mathbb E[(Y - g(X))^2] \geq \mathbb E[(Y - \mathbb E[Y\vert X])^2]
\]
が成立する.つまり,\(\mathbb E[Y\vert X]\) は,\(X\) のすべての関数の中で,MSEの意味で \(Y\) の最良近似を与える.
\(\mu_Y(X) = \mathbb E[Y\vert X]\) とする.
\[
\begin{align*}
\mathbb E[(Y - g(X))^2]
=& \mathbb E[(Y - g(X) + \mu_Y(X) - \mu_Y(X))^2]\\[5pt]
=& \mathbb E[(Y - \mu_Y(X))^2 + (\mu_Y(X)- g(X))^2\\
&+ 2(Y - \mu_Y(X))(\mu_Y(X)- g(X))]\\[5pt]
=& \mathbb E[(Y - \mu_Y(X))^2] + \mathbb E[(\mu_Y(X)- g(X))^2]\\
&+ 2\mathbb E[(Y - \mu_Y(X))(\mu_Y(X)- g(X))]\\[5pt]
=& \mathbb E[(Y - \mu_Y(X))^2] + \mathbb E[(\mu_Y(X)- g(X))^2]\\[5pt]
\geq& \mathbb E[(Y - \mu_Y(X))^2]
\end{align*}
\]
Moments
Def: モーメント
\(0 < r < \infty\) を満たすような正の整数 \(r\) に対して,確率変数 \(X\) のthe r-th moment(原点周りのモーメント)は以下のように定義される
\[
\mathbb E[X^r] = \int_{\mathbb R} x^r \mathrm{d}F_X(x)
\]
the r-th central moment(平均周りのモーメント)は \(\mathbb E[(X - \mathbb E[X])^r]\) と定義される.
原点周りのモーメントと平均周りのモーメントは以下のような関係で理解することができます.\(\mathbb E[X] = \mu\) とすると,
\[
\begin{align*}
(X - \mu + \mu)^r
&= \sum_{k=0}^k \left(\begin{array}{c}r\\ k\end{array}\right)(X - \mu)^k\mu^{r-k}
\end{align*}
\]
両辺の期待値をとると
\[
\begin{align*}
\mathbb E[X^r] = \sum_{k=0}^k \left(\begin{array}{c}r\\ k\end{array}\right)\mathbb E[(X - \mu)^k]\mu^{r-k}
\end{align*}
\]
また,平均周りのモーメントを原点周りのモーメントで表すとなると,
\[
\begin{align*}
(X - \mu)^r = \sum_{k=0}^r(-1)^{r-k}X^r\mu^{r-k}
\end{align*}
\]
同様に期待値をとると
\[
\begin{align*}
\mathbb E[(X - \mu)^r] = \sum_{k=0}^r(-1)^{r-k}\mathbb E[X^r]\mu^{r-k}
\end{align*}
\]
Theorem 5.16 : higher moment and lower moment
\(\mathbb E[\vert X\vert^r] < \infty\) のとき,\(0 < q < r\) について,\(\mathbb E[\vert X\vert^q] < \infty\) が成立する.
関数 \(g:\mathbb R\to \mathbb R\) を
\[
g(x) = \vert x\vert^r + 1
\]
関数 \(g:\mathbb h\to \mathbb R\) を \(h(x) = \vert x\vert^q\) と定義する.\(0 < q < r\) より,
\[
h(x) < g(x) \quad \forall x \in \operatorname{support}(X)
\]
このとき,
\[
\begin{align*}
\int_{\mathbb{R}} |x|^r + 1 \mathrm{d}F
&= \int_{\mathbb{R}} |x|^r\mathrm{d}F + \underbrace{\int_{\mathbb{R}} 1\mathrm{d}F}_{=1}\\
&> \int_{\mathbb{R}} |x|^s\mathrm{d}F
\end{align*}
\]
従って,
\[
\begin{align*}
\infty &> \mathbb E[\vert X\vert^r] + 1\\
&> \int_{\mathbb{R}} |x|^q \mathrm{d}F \\
&= \mathbb E[\vert X\vert^q]
\end{align*}
\]
Theorem 5.17 : Mean minimizes squared error
確率変数 \(X\) について,\(\mathbb E[\vert X\vert^2]<\infty\) とする.このとき,
\[
\mathbb E[X] = \arg\min_b \mathbb E[(X - b)^2]
\]
\(\mu_X = \mathbb E[X], \sigma^2 = \mathbb E[(X - \mu_X)^2]\) とおく.
\[
\begin{align*}
E[(X - b)^2]
&= \mathbb E[(X - \mu_X + \mu_X - b)^2]\\\
&= \mathbb E[(X - \mu_X)^2] + \mathbb E[(\mu_X - b)^2] + \mathbb E[(X - \mu_X)(\mu_x - b)]\\
&= \sigma^2 + \mathbb E[(\mu_X - b)^2] + (\mu_X - b)\mathbb E[X - \mu_X]\\
&= \sigma^2 + \mathbb E[(\mu_X - b)^2]
\end{align*}
\]
\(\mathbb E[(\mu_X - b)^2] \geq 0\) が成立し,また, 等号成立条件は \(\mu_X = b\) .従って,
\[
\mathbb E[X] = \arg\min_b \mathbb E[(X - b)^2]
\]
Markov and Chebyshev Inequalities
確率変数 \(X\) について,確率密度関数や分布関数がわかっている状況は少ないです.また,データが得られたとしても それらを計算することはかんたんではありません.その中で,
\(X\) が mean \(\mu\) からどれくらい離れる可能性があるのか
\(\Pr(\vert X \leq a\vert )\) のupper boundはどれくらいか?
という統計的推測をしたいときに使用されるMarkov and Chebyshev Inequalitiesを解説します.
Theorem 5.18 Markov’s Inequality
non-negative 確率変数 \(X \geq 0\) ,constant \(k >0\) について以下が成立する
\[
\Pr(X \geq k) \leq \frac{\mathbb E[X]}{k}
\]
つまり,
\[
\Pr(X \geq k\mathbb E[X]) \leq \frac{1}{k}
\]
\[
\begin{align*}
\mathbb E[X] &= \int_0^\infty xf(x)\mathrm{d}x\\
&= \int_0^k xf(x)\mathrm{d}x + \int_k^\infty xf(x)\mathrm{d}x\\
&\geq \int_k^\infty xf(x)\mathrm{d}x\\
&\geq \int_k^\infty kf(x)\mathrm{d}x\\
&= k \Pr(X \geq k)
\end{align*}
\]
\[
Y =
\begin{cases}
0 & \text{if} X < k\\[5pt]
k & \text{if} X \geq k
\end{cases}
\]
のように変数変換をすると常に \(Y \leq X\) であるので \(\mathbb E[Y] \leq \mathbb E[X]\) .
\[
\begin{align*}
&\mathbb E[Y] = k\Pr(X\geq k)\\
\Rightarrow &\Pr(X\geq k)\leq \frac{\mathbb E[X]}{k}
\end{align*}
\]
Theorem 5.19 Markov’s Inequality with function
確率変数 \(X\) の関数 \(g(X)\) が \(g(X)\geq 0\) を満たすとする.任意の正の実数 \(c\in\mathbb R_{++}\) に対して
\[
\Pr(g(X)\geq c) \leq \frac{\mathbb E[g(X)]}{c}
\]
が成立する.
\[
\begin{align*}
\mathbb E[g(X)]
&= \mathbb E[g(X)(\mathbb 1(g(X) \geq c) + \mathbb 1(g(X) < c) )]\\
&\geq \mathbb E[g(X)\mathbb 1(g(X) \geq c)]\\
&\geq c\mathbb E[\mathbb 1(g(X) \geq c)]\\
&= c\Pr(g(X)\geq c)
\end{align*}
\]
Theorem 5.20
確率変数 \(X\) の関数 \(g(X)\) が \(g(X)\geq 0\) かつ \(\mathbb E[g(X)] = 0\) を満たすとする. このとき,
\[
\Pr(g(X) = 0) = 1
\]
背理法で示します.\(\Pr(g(X) = 0) < 1\) とすると,ある \(c >0\) について \(\Pr(g(X) \geq c) > 0\) となります.
マルコフ不等式より,
\[
\Pr(g(X) \geq c) \leq \frac{\mathbb E[g(X)]}{c} = 0
\]
となるはずですが,これは \(\Pr(g(X) \geq c) > 0\) に矛盾.従って,.\(\Pr(g(X) = 0) = 1\) が成り立ちます.
📘 REMARKS
Markov’s inequalityは 確率変数 \(X\) がnon-negative, population mean \(\mu\) の知識のみで使用可能
一方,bound幅は大きく,weakest inequalityである
Example 5.7
点数範囲が \(\Omega_x=[0, 110]\) の試験をついて,そのテストスコア確率変数 \(X\) を考える.分布の情報はわからないが population meanは 25 であることが知られている.このとき,\(\Pr(X \geq 100)\) のupper boundはMarkov’s inequalityを用いて 以下のように計算できます.
\(X\) がnon-negativeなので
\[
\begin{align*}
\Pr(X\geq 100) &\leq \frac{25}{100}\\
&= \frac{1}{4}
\end{align*}
\]
Example 5.8 : weak inequality
\(X_i \overset{\mathrm{iid}}{\sim} \operatorname{Bernoulli}(0.2)\) を20回繰り返す試行を考える.この試行の結果のアウトカムを \(Y\) としたとき,
\[
\Pr(Y \geq 16) = \sum_{k=16}^{20} {}_{20}C_{k} 0.2^k 0.8^{20-k} \approx 1.38\cdot 10^{-8}
\]
一方,Markov’s inequalityを用いると
\[
\begin{align*}
\Pr(Y \geq 16) \leq \frac{4}{16} = \frac{1}{4}
\end{align*}
\]
このように,bound幅は大きいことが分かる.
Theorem 5.21 Chebyshev’s inequality
\(X \sim D(\mu, \sigma^2)\) とする.ただし,\(D\) の形状はわからない.実数 \(\alpha >0\) について,以下が成立する
\[
\Pr(\vert X - \mu \vert \geq \alpha) \leq \frac{\sigma^2}{\alpha^2}
\]
つまり,
\[
\Pr(\vert X - \mu \vert \geq \alpha \sigma) \leq \frac{1}{\alpha^2}
\]
\(I = \{x: \vert x -\mu \vert \geq k\}\) とする.
\[
\begin{align*}
\sigma^2 &= \int_{\mathbb R} (x - \mu)^2f(x)\mathrm{d}x\\
&\geq \int_{I} (x - \mu)^2f(x)\mathrm{d}x\\
&\geq \int_{I} k^2f(x)\mathrm{d}x\\
&= k^2 \Pr(\vert x - \mu\vert \geq k)
\end{align*}
\]
以上より,\(\displaystyle\Pr(\vert X - \mu \vert \geq k) \leq \frac{\sigma^2}{k^2}\) を得る.
\((x - \mu)^2\) を確率変数と考えると,non-negative確率変数になる,つまりMarkov’s inequalityを用いることができるので
\[
\begin{align*}
\Pr(\vert x - \mu\vert \geq k) &= \Pr((x - \mu)^2 \geq k^2)\\
&\leq \frac{\mathbb E[(x - \mu)^2]}{k^2} \because{\text{Markov's inequality}}\\
&= \frac{\sigma^2}{k^2}
\end{align*}
\]
Example 5.9 Markov’s inequality vs Chebyshev’s inequality
\(X \sim \operatorname{Binom}(n=20, p=0.2)\) について,weak inequality で確認したように,Markov’s inequalityのより
\[
\Pr(X \geq 16) = \Pr(X \geq 4\mathbb E[X]) \leq \frac{1}{4}
\]
一方,Chebyshev’s inequalityを用いると
\[
\begin{align*}
\Pr(X \geq 16) &\leq \Pr(\vert X - 4\vert \geq 12)\\
&\leq \frac{\operatorname{Var}(X)}{12^2}\\
&\leq \frac{3.2}{12^2}\\
&= \frac{1}{45}
\end{align*}
\]
Chebyshev’s inequalityはMarkov’s inqualityと異なり,確率変数 \(X\) がnon-negativeである必要はない
meanからの距離についての情報を得ることができる
Example 5.10 : フェアなサイコロと出た目の範囲
\(n\) 回独立に6面のフェアなサイコロを投げる試行を考えます.このとき,6の目が出た回数 \(X\) が \([n/6 - \sqrt{n}, n/6 + \sqrt{n}]\) に収まる確率は exactに計算するには大変ですが,Chebyshev inequalityを用いてlower bouldを計算することができます.
サイコロをi回目投げたときに出た目について
\[
\begin{align*}
Z_i = \left\{\begin{array}{cc}
1 & \text{if 6の目がでる}\\
0 & \text{otherwise}
\end{array}\right.
\end{align*}
\]
という確率変数を考えたとき,
\[
X = \sum_{i=1}^n Z_i \sim \operatorname{Binom}(n, 1/6)
\]
と表すことができます.このときChebyshev inequalityより
\[
\begin{align*}
P(\vert X - \mu \vert \geq k) \leq \frac{\sigma^2}{k^2}\\
\Rightarrow P(\vert X - \mu \vert \geq \sqrt{n}) \leq \frac{1}{n}\frac{5n}{36} = \frac{5}{36}
\end{align*}
\]
したがって,
\[
P(\vert X - \mu \vert < \sqrt{n}) \geq 1- \frac{5}{36} = \frac{31}{36}
\]
▶ PythonでのBoundの確認
\(n\) の回数を増やしてlower-boundに近づいていくのか確認した所,そのような挙動は以下のように確認されませんでした. 一方,正規分布での近似の値に収束していくことが確認できます.収束先の値 \(p^*\) は
\[
p^* = \Phi(1/\sqrt{5/36}) - \Phi(-1/\sqrt{5/36}) \approx 0.9927
\]
Code
import numpy as np
from scipy.stats import binom
import plotly.graph_objects as go
from scipy.stats import norm
from regmonkey_style import stylewizard as sw
sw.set_templates("regmonkey_twoline" )
N = np.arange(1 , 1000 )
p = 1 / 6
norm_instance = norm(N / 6 , np.sqrt(N * 5 / 36 ))
exact_prob = binom.cdf(N / 6 + np.sqrt(N), N, p) - binom.cdf(N / 6 - np.sqrt(N), N, p)
norm_approx = norm_instance.cdf(N / 6 + np.sqrt(N)) - norm(
N / 6 , np.sqrt(N * 5 / 36 )
).cdf(N / 6 - np.sqrt(N))
lowerbound_prob = 31 / 36
# Create the plot
fig = go.Figure()
# Add exact probability line
fig.add_trace(
go.Scatter(
x= N, y= exact_prob, mode= "lines" , line= dict (width= 3 ), name= "Exact Probability"
)
)
fig.add_trace(
go.Scatter(
x= N,
y= norm_approx,
mode= "lines" ,
line= dict (width= 3 ),
name= "Normal-approx Probability" ,
)
)
# Add approximate probability line
fig.add_trace(
go.Scatter(
x= N, y= [lowerbound_prob] * len (N), mode= "lines" , name= "Lower-bound Probability"
)
)
# Add labels and title
fig.update_layout(
title= "Exact vs normal-approx vs lower-bound Probability" ,
xaxis_title= "N (log-scale)" ,
yaxis_title= "Probability" ,
legend= dict (x= 0.8 , y= 0.99 ),
yaxis_range= [0.85 , 1.05 ],
xaxis= dict (
type = 'log' ,
tickvals= [1 , 10 , 100 , 1000 , 10000 , 100000 ],
ticktext= ['1' , '10' , '100' , '1k' , '10k' , '100k' ]
)
)
# Show the plot
fig.show()
Weak Law of Large Numbers
Theorem 5.22 Weak Law of Large Numbers
平均 \(\mu\) , 分散 \(\sigma^2\) の分布に独立に従う確率変数 \(X_1, \cdots, X_n\) を考える.標本平均を \(\overline{X_n} = \frac{1}{n}\sum_{i=1}^nX_i\) とする.
このとき,任意の実数 \(\epsilon >0\) に対して,
\[
\lim_{n\to\infty}\Pr(\vert \overline{X_n} - \mu \vert > \epsilon) = 0
\]
つまり,標本平均は母平均に確率収束 する.
Chebyshev’s inequalityを用いて以下のように示せる
\[
\begin{align*}
\lim_{n\to\infty}\Pr(\vert \overline{X_n} - \mu \vert > \epsilon)
&\leq \lim_{n\to\infty} \frac{\operatorname{Var}(\overline{X_n})}{\epsilon^2}\\
&= \lim_{n\to\infty} \frac{\sigma^2}{n\epsilon^2}\\
&=0
\end{align*}
\]