3 期待値
期待値の性質
Def: 連続確率変数の期待値
\(f\) を確率変数 \(X\) の確率密度関数とする.\(\int_{\mathbb R} \vert x\vert f(x) \mathrm{d}x < \infty\) のとき,\(X\) の期待値は以下のように定義する:
\[ \mathbb E[X] = \int_{\mathbb R} x f(x) \mathrm{d}x \]
また,\(X\) の関数 \(g(X)\) の期待値は \(\int_{\mathbb R} \vert g(x)\vert f(x) \mathrm{d}x < \infty\) ならば
\[ \mathbb E[g(X)] = \int_{\mathbb R} g(x) f(x) \mathrm{d}x \]
定義より確率密度関数で重みづけた平均が確率変数の期待値になると解釈することができます.meanは分布の位置を表すパラメーターとも解釈できるので location parameter(位置母数)と呼ぶこともあります.一方,標準偏差 \(\sigma\) はscale parameter(尺度母数)といいます.
Example 3.1 指数分布の期待値
rate parameter \(\lambda\) の指数分布に従う確率変数 \(X\) を考えます.
\[ \begin{align*} \mathbb E[X] &= \int^\infty_0 x \lambda \exp(-\lambda x)\mathrm{d}x\\ &= \bigg[-x\exp(-\lambda x)\bigg]^\infty_0 + \int^\infty_0 \exp(-\lambda x)\mathrm{d}x\\ &= \int^\infty_0 \exp(-\lambda x)\mathrm{d}x\\ &= -\frac{1}{\lambda}\bigg[\exp(-\lambda x)\bigg]^\infty_0\\ &= \frac{1}{\lambda} \end{align*} \]
指数分布は電球の寿命などに応用される分布ですが,rate parameter \(\lambda\) が小さいほど期待値(= 電球の寿命)が大きくなることが分かります.
Example 3.2 期待値が定義できない離散分布
確率変数 \(X\) のsupportを加算集合 \(\{2, 2^2, 2^3, \cdots\}\) とする.確率関数を
\[ \Pr(X = 2^i) = \frac{1}{2^i} \quad (i = 1, 2, \cdots) \]
このとき,
\[ \sum_{i=1}^\infty \Pr(X=2^i) = \sum_{i=1}^\infty\frac{1}{2^i} = 1 \]
と確率の公理を満たしていることが分かる.一方,
\[ \begin{align*} \mathbb E[X] &= \sum_{i=1}^\infty 2^i \frac{1}{2^i}\\ &= \sum_{i=1}^\infty 1 = \infty \end{align*} \]
従って,確率変数 \(X\) の分布は,期待値が定義できない分布であることがわかる.
Example 3.3 期待値が定義できない連続分布
確率密度関数 \[ f(x) = \begin{cases} 0 & x < 1\\ \frac{1}{x^2} & x\geq 1 \end{cases} \]
という確率変数 \(X\) を考える.
\[ \begin{align*} \int_1^\infty f(x) \mathrm{d}x &= \left[\frac{1}{x}\right]^1_\infty = 1 \end{align*} \]
一方,
\[ \begin{align*} \mathbb E[X] &= \int_1^\infty xf(x) \mathrm{d}x\\ &= \int_1^\infty\frac{1}{x}\mathrm{d}x\\ &= \left[\log(x)\right]_1^\infty = \infty \end{align*} \]
従って,確率変数 \(X\) の分布は,期待値が定義できない分布であることがわかる.
Theorem 3.1 Tail probabilities
\([0, b]\) の定義域をもつ非負確率変数 \(X\) を考える.\(F\) を累積分布関数とするとき
\[ \mathbb E[X] = \int_0^b (1 - F(x))\mathrm{d}x \]
Theorem 3.2
\([0, \infty)\) の定義域をもつ非負確率変数 \(X\) を考える.\(\mathbb E[\vert X^{p+1} \vert] <\infty\) が定義可能及び, \(F\) を累積分布関数とするとき
\[ \mathbb E[X^p] = \int_0^\infty px^{p-1} (1 - F(x))\mathrm{d}x \quad \text{where } p > 0 \]
Example 3.4
同様の考えで定義域を \(0,1,2,3,\cdots\) とする離散確率変数 \(X\) について
\[ \mathbb E[X] = \sum_{k=0}^\infty \Pr(X > k) \]
が成立します.
\[ \begin{align*} \Pr(X > k) &= \Pr(X = k+1) + \Pr(X = k+2) + \cdots\\ &= \sum_{l=k+1}^\infty \Pr(X=l) \end{align*} \]
従って,
\[ \begin{align*} \sum_{k=0}^\infty \Pr(X > k) &= \sum_{k=0}^\infty \sum_{l=k+1}^\infty \Pr(X=l)\\ &= \sum_{l=1}^\infty\sum_{k=0}^{l-1}\Pr(X=l) \quad\because \Pr(X=l) > 0 \\ &= \sum_{l=1}^\infty l\Pr(X=l)\\ &= \sum_{l=0}^\infty l\Pr(X=l)\\ &= \mathbb E[X] \end{align*} \] \[\tag*{\(\blacksquare\)}\]
Example 3.5
\(0,1,2,3,\cdots\) とする離散確率変数 \(X\) について
\[ \mathbb E[X^2] = \sum_{k=0}^\infty \Pr(X > k)(2k+1) \]
も成立する.
\[ \begin{align*} \sum_{k=0}^\infty \Pr(X > k)(2k+1) &= \sum_{k=0}^\infty \sum_{l=k+1}^\infty \Pr(X=l)(2k+1)\\ &= \sum_{l=1}^\infty \sum_{k=0}^{l-1}\Pr(X=l)(2k+1)\\ &= \sum_{l=1}^\infty \Pr(X=l)\sum_{k=0}^{l-1}(2k+1)\\ &= \sum_{l=1}^\infty l^2\Pr(X=l)\\ &= \mathbb E[X^2] \end{align*} \]
\[\tag*{\(\blacksquare\)}\]
Theorem 3.3 期待値の線型性
\(a, b\) を実数,確率変数 \(X, Y\) について以下が成り立つ
\[ \mathbb E[aX + bY] = a\mathbb E[X] + b\mathbb E[Y] \]
Example 3.6 : 変数変換と分散
mean \(\mu\) をもつ確率変数 \(X\) と実数 \(a, b\) について
\[ \operatorname{Var}(aX + b) = a^2\operatorname{Var}(X) \]
が成立します.証明は以下,
\[ \begin{align*} \operatorname{Var}(aX + b) &= \mathbb E[(aX + b) - (a\mu +b)^2]\\ &= \mathbb E[a^2(X - \mu)^2]\\ &= a^2 \mathbb E[(X - \mu)^2]\\ &= a^2\operatorname{Var}(X) \end{align*} \]
\[\tag*{\(\blacksquare\)}\]
Theorem 3.4 positive operator
確率変数 \(X, Y\) について,\(X\geq Y\) が成り立つとき,
\[ \mathbb E[X] \geq \mathbb E[Y] \]
Theorem 3.5
確率変数 \(X\) について,
\[ \mathbb E[\vert X \vert] \geq \vert \mathbb E[X] \vert \]
Theorem 3.6 互いに独立な確率変数の積の期待値
\(\mathbb E[\vert X\vert ]<\infty, \mathbb E[\vert Y\vert ]<\infty\) を満たす, 確率空間 \((\Omega, \mathscr{F},P)\) 上で定義された確率変数 \(X, Y\) を考える. \(X \perp Y\) であるとき,次が成立する
\[ \mathbb E[XY] = \mathbb E[X]\mathbb E[Y] \]
Theorem 3.7 Schwarz inquality
確率変数 \(X, Y\) についてシュワルツの不等式が成立することを示せ
\[ \left(\mathbb E[XY]\right)^2 \leq \mathbb E[X^2]\mathbb E[Y^2] \]
Theorem 3.8 : Triangle inequality
確率変数 \(X, Y\) について,以下のような三角不等式が成立することを示せ
\[ \sqrt{\mathbb E[(X+Y)^2]} \leq \sqrt{\mathbb E[X^2]} + \sqrt{\mathbb E[Y^2]} \]
条件付き期待値
Theorem 3.9 Law of Total Expectation
\[ \mathbb E[Y] = \mathbb E[\mathbb E[Y\vert X]] \]
Theorem 3.10 : CEF Decomposition Property
確率変数 \(X, Y\) について,
\[ Y = \mathbb E[Y\vert X] + \epsilon \]
としたとき,
- \(\epsilon\) は \(X\) について mean-independent, i.e., \(\mathbb E[\epsilon\vert X] = 0\)
- \(\epsilon\) は \(X\) の任意の関数に対して無相関, i.e., \(\operatorname{Cov}(h(X), \epsilon) = 0\)
📘 REMARKS
CEF Decomposition Propertyは,確率変数 \(Y\) は確率変数 \(X\) で説明できるパートと,\(X\) の任意の関数と直行(orthogonal) な誤差項のパートに分解できることを示しています.
Markov and Chebyshev Inequalities
確率変数 \(X\) について,確率密度関数や分布関数がわかっている状況は少ないです.また,データが得られたとしても それらを計算することはかんたんではありません.その中で,
- \(X\) が mean \(\mu\) からどれくらい離れる可能性があるのか
- \(\Pr(\vert X \leq a\vert )\) のupper boundはどれくらいか?
という統計的推測をしたいときに使用されるMarkov and Chebyshev Inequalitiesを解説します.
Markov’s Inequality
Theorem 3.11 Markov’s Inequality
non-negative 確率変数 \(X \geq 0\),constant \(k >0\) について以下が成立する
\[ \Pr(X \geq k) \leq \frac{\mathbb E[X]}{k} \]
つまり,
\[ \Pr(X \geq k\mathbb E[X]) \leq \frac{1}{k} \]
📘 REMARKS
- Markov’s inequalityは 確率変数 \(X\) がnon-negative, population mean \(\mu\) の知識のみで使用可能
- 一方,bound幅は大きく,weakest inequalityである
Example 3.7
点数範囲が \(\Omega_x=[0, 110]\) の試験をついて,そのテストスコア確率変数 \(X\) を考える.分布の情報はわからないが population meanは 25 であることが知られている.このとき,\(\Pr(X \geq 100)\) のupper boundはMarkov’s inequalityを用いて 以下のように計算できます.
\(X\) がnon-negativeなので
\[ \begin{align*} \Pr(X\geq 100) &\leq \frac{25}{100}\\ &= \frac{1}{4} \end{align*} \]
Example 3.8 : weak inequality
\(X_i \overset{\mathrm{iid}}{\sim} \operatorname{Bernoulli}(0.2)\) を20回繰り返す試行を考える.この試行の結果のアウトカムを \(Y\) としたとき,
\[ \Pr(Y \geq 16) = \sum_{k=16}^{20} {}_{20}C_{k} 0.2^k 0.8^{20-k} \approx 1.38\cdot 10^{-8} \]
一方,Markov’s inequalityを用いると
\[ \begin{align*} \Pr(Y \geq 16) \leq \frac{4}{16} = \frac{1}{4} \end{align*} \]
このように,bound幅は大きいことが分かる.
Chebyshev’s Inequality
Theorem 3.12 Chebyshev’s inequality
\(X \sim D(\mu, \sigma^2)\) とする.ただし,\(D\) の形状はわからない.実数 \(\alpha >0\) について,以下が成立する
\[ \Pr(\vert X - \mu \vert \geq \alpha) \leq \frac{\sigma^2}{\alpha^2} \]
つまり,
\[ \Pr(\vert X - \mu \vert \geq \alpha \sigma) \leq \frac{1}{\alpha^2} \]
Example 3.9 Markov’s inequality vs Chebyshev’s inequality
\(X \sim \operatorname{Binom}(n=20, p=0.2)\) について,weak inequality で確認したように,Markov’s inequalityのより
\[ \Pr(X \geq 16) = \Pr(X \geq 4\mathbb E[X]) \leq \frac{1}{4} \]
一方,Chebyshev’s inequalityを用いると
\[ \begin{align*} \Pr(X \geq 16) &\leq \Pr(\vert X - 4\vert \geq 12)\\ &\leq \frac{\operatorname{Var}(X)}{12^2}\\ &\leq \frac{3.2}{12^2}\\ &= \frac{1}{45} \end{align*} \]
📘 REMARKS
- Chebyshev’s inequalityはMarkov’s inqualityと異なり,確率変数 \(X\) がnon-negativeである必要はない
- meanからの距離についての情報を得ることができる
Weak Law of Large Numbers
Theorem 3.13 Weak Law of Large Numbers
平均 \(\mu\), 分散 \(\sigma^2\) の分布に独立に従う確率変数 \(X_1, \cdots, X_n\) を考える.標本平均を \(\overline{X_n} = \frac{1}{n}\sum_{i=1}^nX_i\) とする.
このとき,任意の実数 \(\epsilon >0\) に対して,
\[ \lim_{n\to\infty}\Pr(\vert \overline{X_n} - \mu \vert > \epsilon) = 0 \]
つまり,標本平均は母平均に確率収束する.
分散
Theorem 3.14 : Bienaymé Equality
互いに独立な確率変数 \(X, Y\) について以下が成立する
\[ \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) \]
なお,確率変数 \(X, Y\) が独立ではない場合は
\[ \operatorname{Var}(X + Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{Cov}(X, Y) \]
が成立します.
条件付き分散
確率変数 \(X, Y\) についての条件付き分散は以下のような意味を持つ
- \(\operatorname{Var}(X\vert Y=y)\) は,\(Y = y\) と固定したときの \(X\) の分散
- \(\operatorname{Var}(X\vert Y)\) は,\(Y\) がランダムに選ばれた値に固定された場合の \(X\) の分散
\(\operatorname{Var}(X\vert Y)\) は \(Y\) のランダムネスに依存した確率変数である一方, \(\operatorname{Var}(X\vert Y=y)\) は \(y\) の関数という違いがある
Theorem 3.15 条件付き分散
\[ \operatorname{Var}(Y\vert X) = \mathbb E[(Y^2\vert X)] - (\mathbb E[(Y\vert X)])^2 = \mathbb E[(Y - \mathbb E[Y\vert X])^2\vert X] \]
Theorem 3.16 Law of Total Variance
\[ \operatorname{Var}(Y) = \operatorname{Var}(\mathbb E[Y\vert X]) + \mathbb E_X[\operatorname{Var}(Y\vert X)] \]
Law of Total Varianceより \(Y\) の分散は,CEFの分散 + 誤差項の分散に分解できることを示しています. 実務における分析において,賃金のバラツキを
- 賃金を説明する各個人の特徴のバラツキ
- 特徴で説明することのできない賃金のバラツキ(=誤差項)の期待値
に分解して考察する際にLaw of Total Varianceを使用したりします.