5  期待値

Author

Ryo Nakagami

Published

2024-09-12

Modified

2024-10-19

確率的変動を考慮する際に,ランダムネスを要約した統計量として期待値を用いる場面は多いです.例えば, マーケティング担当者は,プロモーションの提供によって得られるリターンの期待値に基づいてプロモーションの実施を判断しますし, 投資家はさまざまな金融商品の期待リターンとリスクに基づいてポートフォリオを選択したりします.

期待値の性質

Def: 連続確率変数の期待値

f を確率変数 X の確率密度関数とする.R|x|f(x)dx< のとき,X の期待値は以下のように定義する:

E[X]=Rxf(x)dx

また,X の関数 g(X) の期待値は R|g(x)|f(x)dx< ならば

E[g(X)]=Rg(x)f(x)dx

定義より確率密度関数で重みづけた平均が確率変数の期待値になると解釈することができます.meanは分布の位置を表すパラメーターとも解釈できるので location parameter(位置母数)と呼ぶこともあります.一方,標準偏差 σscale parameter(尺度母数)といいます.

  Example 5.1 指数分布の期待値

rate parameter λ の指数分布に従う確率変数 X を考えます.

E[X]=0xλexp(λx)dx=[xexp(λx)]0+0exp(λx)dx=0exp(λx)dx=1λ[exp(λx)]0=1λ

指数分布は電球の寿命などに応用される分布ですが,rate parameter λ が小さいほど期待値(= 電球の寿命)が大きくなることが分かります.

  Example 5.2 期待値が定義できない離散分布

確率変数 X のsupportを加算集合 {2,22,23,} とする.確率関数を

Pr(X=2i)=12i(i=1,2,)

このとき,

i=1Pr(X=2i)=i=112i=1

と確率の公理を満たしていることが分かる.一方,

E[X]=i=12i12i=i=11=

従って,確率変数 X の分布は,期待値が定義できない分布であることがわかる.

  Example 5.3 期待値が定義できない連続分布

確率密度関数 f(x)={0x<11x2x1

という確率変数 X を考える.

1f(x)dx=[1x]1=1

一方,

E[X]=1xf(x)dx=11xdx=[log(x)]1=

従って,確率変数 X の分布は,期待値が定義できない分布であることがわかる.

▶  離散確率変数の変数変換と期待値

離散型確率変数 X について Y=g(X) を考えたとき,Ay={x|g(x)=y} とおくと

E[g(X)]=xp(x)g(x)=yAyp(x)g(x)=yAyp(x)y=yyAyp(x)=yPr(Y=y)y=E[Y]

上の式展開では, Pr(X=x)=p(x) としています.

▶  期待値と重心

期待値の解釈の1つとして 確率変数 X の重心と考えるパターンがあります.xi の値を pi の確率でとる離散型確率変数 X の場合,

  • 重さのない棒の中央を原点とする
  • 原点から右側をプラス,左側をマイナスとして,原券からの距離 xi の場所に重さ pi のおもりを吊り下げる

このとき,重心 μ はモーメントの釣り合い = 右回りモーメントが0になる地点となりますが

右回りモーメント=i(xiμ)pi=xipiipiμ=E[X]μ=0

従って,E[X]=μ より,期待値と重心が対応することがわかります.連続型確率変数でも確率密度関数を重さのある棒の断面積と みなすことで離散型と同じく期待値と重心が対応することを確かめることができます.

Theorem 5.1 Tail probabilities

[0,b] の定義域をもつ非負確率変数 X を考える.F を累積分布関数とするとき

E[X]=0b(1F(x))dx

Proof

[xF(x)]0b=0bxf(x)dx+0bF(x)dx

を用いると

E[X]=b0bF(x)dx=0b1dx0bF(x)dx=0b(1F(x))dx

Theorem 5.2 Tail probabilities

E[|X|]< をもつ非負の確率変数 X について,F(x) を分布関数とすると

E[X]=0(1F(x))dx

Proof

0(1F(x))dx=0Pr(Xx)dx=0E[1(Xx)]dx=001(Xx)dF(x)dx=0{01(Xx)dx}dF(x)積分の順序交換=E[01(Xx)dx]=E[0X1dx]=E[X]

limb[x(1F(x))]0b について,limbb(1F(b))=0 とは限らない点に注意が必要です.

Theorem 5.3

[0,) の定義域をもつ非負確率変数 X を考える.E[|Xp+1|]< が定義可能及び, F を累積分布関数とするとき

E[Xp]=0pxp1(1F(x))dxwhere p>0

Proof

[xp(1F(x))]0=0pxp1(1F(x))dx0xpf(x)dx

RHS=0 であるので

E[Xp]=0pxp1(1F(x))dx

  Example 5.4 : Discrete Tail Probability

同様の考えで定義域を 0,1,2,3, とする離散確率変数 X について

E[X]=k=0Pr(X>k)

が成立します.

Pr(X>k)=Pr(X=k+1)+Pr(X=k+2)+=l=k+1Pr(X=l)

従って,

k=0Pr(X>k)=k=0l=k+1Pr(X=l)=l=1k=0l1Pr(X=l)Pr(X=l)>0=l=1lPr(X=l)=l=0lPr(X=l)=E[X]

  Example 5.5

0,1,2,3, とする離散確率変数 X について

E[X2]=k=0Pr(X>k)(2k+1)

も成立する.

k=0Pr(X>k)(2k+1)=k=0l=k+1Pr(X=l)(2k+1)=l=1k=0l1Pr(X=l)(2k+1)=l=1Pr(X=l)k=0l1(2k+1)=l=1l2Pr(X=l)=E[X2]

Theorem 5.4 期待値の線型性

a,b を実数,確率変数 X,Y について以下が成り立つ

E[aX+bY]=aE[X]+bE[Y]

Proof

確率変数 X,Y が有限加算な標本空間で定義されているケースにて以下を示す.

  1. E[X+Y]=E[X]+E[Y]
  2. E[cX]=cE[X]

▶  1. E[X+Y]=E[X]+E[Y]

確率変数 X{x1,,xm}, 確率変数 Y{y1,,yn} の値をそれぞれ取りうるとする. このとき,Z=X+Y の標本空間 {z1,,zk} について km+n が成り立つ.

Al={(i,j):xi+yj=zl} としたとき,

E[X+Y]=l=1kzlPr(Al)=l=1k(i,j)Zl(xi+yj)Pr(xi,yj)=i=1mj=1n(xi+yj)Pr(xi,yj)=i=1mj=1nxiPr(xi,yj)+yjPr(xi,yj)=i=1mj=1n[xiPr(xi,yj)+yjPr(xi,yj)]=i=1mxij=1nPr(xi,yj)+j=1nyji=1mPr(xi,yj)=i=1mxiPr(xi)+j=1nyjPr(yj)=E[X]+E[Y]

▶  2. E[cX]=cE[X]

E[cX]=i=1mcxi=Pr(cX=cxi)=ci=1mxi=Pr(X=xi)=cE[X]

期待値の線型性定理の応用として, 期待値が定義できるという前提の下,

E[g(X,Y)+h(X,Y)]=E[g(X,Y)]+E[h(X,Y)]E[ag(X,Y)+b]=aE[g(X,Y)]+b(a,b: constants) が成り立ちます.

E[g(X,Y)+h(X,Y)]=RR(g(x,y)+h(x,y))f(x,y)dxdy=RRg(x,y)f(x,y)dxdy+RRh(x,y)f(x,y)dxdy=E[g(X,Y)]+E[h(X,Y)]

上記のように確認できます.

  Example 5.6 : 変数変換と分散

mean μ をもつ確率変数 X と実数 a,b について

Var(aX+b)=a2Var(X)

が成立します.証明は以下,

Var(aX+b)=E[(aX+b)(aμ+b)2]=E[a2(Xμ)2]=a2E[(Xμ)2]=a2Var(X)

Theorem 5.5 : 確率変数の標準化

確率変数 X について, E[X]=μ,Var(X)=σ2 が存在するとき,

Z=Xμσ

とおくと,E[Z]=0,Var(Z)=1 が成立する.

Proof

E[Z]=E[Xμσ]=E[X]μσ=0

Var(Z)=E[Z2]=E[(Xμ)2σ2]=σ2σ2=1

Theorem 5.6 positive operator

確率変数 X,Y について,XY が成り立つとき,

E[X]E[Y]

Proof

XY より XY0. 期待値はpositive operatorなので

E[XY]0

従って,期待値の線型性を用いると

E[XY]=E[X]E[Y]0

Theorem 5.7

確率変数 X について,

E[|X|]|E[X]|

Proof

|X|X より

E[|X|]E[X]

また, |X|+X0 より,E[|X|+X]0, つまり,

E[|X|]E[X]

以上より,E[|X|]|E[X]|

Theorem 5.8 Schwarz inquality

確率変数 X,Y についてシュワルツの不等式が成立することを示せ

(E[XY])2E[X2]E[Y2]

Proof

Quadratic functionを以下のように定義します

g(t)=E[(tXY)2]=t2E[X2]2tE[XY]+E[Y2]0

このとき,g(t) はnon-negativeなので判別式について以下が成立する

D/4=(E[XY])2E[X2]E[Y2]0

従って,(E[XY])2E[X2]E[Y2]

Theorem 5.9 : Triangle inequality

確率変数 X,Y について,以下のような三角不等式が成立することを示せ

E[(X+Y)2]E[X2]+E[Y2]

Proof

シュワルツの不等式を用いて以下のように示せる

E[(X+Y)2]=E[X2]+2E[XY]+E[Y2]=E[X2]+2(E[XY])2+E[Y2]E[X2]+2E[X2]E[Y2]+E[Y2]=(E[X2]+E[Y2])2

両辺について,square rootをとると,

E[(X+Y)2]E[X2]+E[Y2]

独立な確率変数と期待値

Theorem 5.10 互いに独立な確率変数の積の期待値

E[|X|]<,E[|Y|]< を満たす, 確率空間 (Ω,F,P) 上で定義された確率変数 X,Y を考える. XY であるとき,次が成立する

E[XY]=E[X]E[Y]

Proof

E[XY]=Ωxyf(x,y)dxdy=ΩxyfX(x)fY(y)dxdyindependence=(xfX(x)dx)(yfY(y)dy)=E[X]E[Y]

Theorem 5.11 互いに独立な確率変数についての関数の積の期待値

E[|X|]<,E[|Y|]< を満たす, 確率空間 (Ω,F,P) 上で定義された確率変数 X,Y を考える. また,関数 g(X), h(Y) は期待値が存在するとする.XY であるとき,次が成立する

E[g(X)h(Y)]=E[g(X)]E[h(Y)]

Proof

XY なので,確率密度関数について f(x,y)=fX(x)fY(y) が成立します.

E[g(X)h(Y)]=RRg(x)h(x)f(x,y)dxdy=RRg(x)h(x)f(x,y)dxdy={Rg(x)fX(x)dx}{Rh(x)fY(y)dy}=E[g(X)]E[h(Y)]

条件付き期待値

Theorem 5.12 Law of Total Expectation

E[Y]=E[E[Y|X]]

Proof

▶  連続確率変数の場合

E[E[Y|X]]=E[Y|X=u]fX(u)du=[tfY(t|x=u)dt]fX(u)du=tfY(t|x=u)fX(u)dudt=t[fX,Y(u,t)du]dt=tfY(t)dt=E[Y]

▶  離散確率変数の場合

E[E[Y|X]]=xXE[Y|X]fX(x)=xXyYyfY|X(y|x)fX(x)=xXyYyf(x,y)=yYyfY(y)=E[Y]

LTEの法則より

E[Y]=E[E[Y|X,Z]]E[Y|X]=E[E[Y|X,Z]|X]

が成立します.

なお,E[Y|X],E[Y|X=x] の違いには注意が必要です.前者は確率変数ですが, 後者は確率変数の実現値の取りうる値を表しています.Xx1,,xk の値を取る離散確率変数とすると, E[Y|X]k 個の値を取る離散確率変数となります.

Theorem 5.13

g()E[g(X)Y]< を満たす X の任意の関数とする.このとき,

E[E[g(X)Y|X]]=E[g(X)Y]

が成り立つ.

Proof

μY(x)=E[Y|X=x] とする.このとき,

E[g(X)E[Y|X]]=E[g(X)μY(X))=xXg(x)μY(x)fX(x)=xXg(x)yYyfY|X(y|x)fX(x)=xXg(x)yYyf(x,y)=xXyYg(x)yf(x,y)=E[g(X)Y]

Theorem 5.14 : CEF Decomposition Property

確率変数 X,Y について,

Y=E[Y|X]+ϵ

としたとき,

  1. ϵX について mean-independent, つまり, E[ϵ|X]=0
  2. ϵX の任意の関数に対して無相関, つまり, Cov(h(X),ϵ)=0
  3. Var(ϵ)=E[Var(Y|X)]
Proof

▶  (1)

E[ϵ|X]=E[YE[Y|X]|X]=E[Y|X]E[Y|X]=0

▶  (2)

E[h(X)ϵ]=E[E[h(X)ϵ|X]]=E[h(X)E[ϵ|X]]=0mean independence

▶  (3)

条件付き期待値の公式 E[g(X,Y)]=EX[EY|X[g(X,Y)|X]] より

Var(ϵ)=E[(YE[Y|X])2]=E{E[(YE[Y|X])2|X]}=E[Var(Y|X)]

CEF Decomposition Propertyは,確率変数 Y は確率変数 X で説明できるパートと,X の任意の関数と直行(orthogonal) な誤差項のパートに分解できることを示しています.

Theorem 5.15 : MSE minimizer

g()X の任意の関数とする.このとき,

E[(Yg(X))2]E[(YE[Y|X])2]

が成立する.つまり,E[Y|X] は,X のすべての関数の中で,MSEの意味で Y の最良近似を与える.

Proof

μY(X)=E[Y|X] とする.

E[(Yg(X))2]=E[(Yg(X)+μY(X)μY(X))2]=E[(YμY(X))2+(μY(X)g(X))2+2(YμY(X))(μY(X)g(X))]=E[(YμY(X))2]+E[(μY(X)g(X))2]+2E[(YμY(X))(μY(X)g(X))]=E[(YμY(X))2]+E[(μY(X)g(X))2]E[(YμY(X))2]

Moments

Def: モーメント

0<r< を満たすような正の整数 r に対して,確率変数 X のthe r-th moment(原点周りのモーメント)は以下のように定義される

E[Xr]=RxrdFX(x)

the r-th central moment(平均周りのモーメント)は E[(XE[X])r] と定義される.

原点周りのモーメントと平均周りのモーメントは以下のような関係で理解することができます.E[X]=μ とすると,

(Xμ+μ)r=k=0k(rk)(Xμ)kμrk

両辺の期待値をとると

E[Xr]=k=0k(rk)E[(Xμ)k]μrk

また,平均周りのモーメントを原点周りのモーメントで表すとなると,

(Xμ)r=k=0r(1)rkXrμrk

同様に期待値をとると

E[(Xμ)r]=k=0r(1)rkE[Xr]μrk

Theorem 5.16 : higher moment and lower moment

E[|X|r]< のとき,0<q<r について,E[|X|q]< が成立する.

Proof

関数 g:RR

g(x)=|x|r+1

関数 g:hRh(x)=|x|q と定義する.0<q<r より,

h(x)<g(x)xsupport(X)

このとき,

R|x|r+1dF=R|x|rdF+R1dF=1>R|x|sdF

従って,

>E[|X|r]+1>R|x|qdF=E[|X|q]

Theorem 5.17 : Mean minimizes squared error

確率変数 X について,E[|X|2]< とする.このとき,

E[X]=argminbE[(Xb)2]

Proof

μX=E[X],σ2=E[(XμX)2] とおく.

E[(Xb)2]=E[(XμX+μXb)2] =E[(XμX)2]+E[(μXb)2]+E[(XμX)(μxb)]=σ2+E[(μXb)2]+(μXb)E[XμX]=σ2+E[(μXb)2]

E[(μXb)2]0 が成立し,また, 等号成立条件は μX=b.従って,

E[X]=argminbE[(Xb)2]

Markov and Chebyshev Inequalities

確率変数 X について,確率密度関数や分布関数がわかっている状況は少ないです.また,データが得られたとしても それらを計算することはかんたんではありません.その中で,

  • X が mean μ からどれくらい離れる可能性があるのか
  • Pr(|Xa|) のupper boundはどれくらいか?

という統計的推測をしたいときに使用されるMarkov and Chebyshev Inequalitiesを解説します.

Theorem 5.18 Markov’s Inequality

non-negative 確率変数 X0,constant k>0 について以下が成立する

Pr(Xk)E[X]k

つまり,

Pr(XkE[X])1k

Proof

E[X]=0xf(x)dx=0kxf(x)dx+kxf(x)dxkxf(x)dxkkf(x)dx=kPr(Xk)

Proof: 変数変換

Y={0ifX<kkifXk

のように変数変換をすると常に YX であるので E[Y]E[X].

E[Y]=kPr(Xk)Pr(Xk)E[X]k

Theorem 5.19 Markov’s Inequality with function

確率変数 X の関数 g(X)g(X)0 を満たすとする.任意の正の実数 cR++ に対して

Pr(g(X)c)E[g(X)]c

が成立する.

Proof

E[g(X)]=E[g(X)(1(g(X)c)+1(g(X)<c))]E[g(X)1(g(X)c)]cE[1(g(X)c)]=cPr(g(X)c)

Theorem 5.20

確率変数 X の関数 g(X)g(X)0 かつ E[g(X)]=0 を満たすとする. このとき,

Pr(g(X)=0)=1

Proof

背理法で示します.Pr(g(X)=0)<1 とすると,ある c>0 について Pr(g(X)c)>0 となります.

マルコフ不等式より,

Pr(g(X)c)E[g(X)]c=0

となるはずですが,これは Pr(g(X)c)>0 に矛盾.従って,.Pr(g(X)=0)=1 が成り立ちます.

📘 REMARKS

  • Markov’s inequalityは 確率変数 X がnon-negative, population mean μ の知識のみで使用可能
  • 一方,bound幅は大きく,weakest inequalityである

  Example 5.7

点数範囲が Ωx=[0,110] の試験をついて,そのテストスコア確率変数 X を考える.分布の情報はわからないが population meanは 25 であることが知られている.このとき,Pr(X100) のupper boundはMarkov’s inequalityを用いて 以下のように計算できます.

X がnon-negativeなので

Pr(X100)25100=14

  Example 5.8 : weak inequality

XiiidBernoulli(0.2) を20回繰り返す試行を考える.この試行の結果のアウトカムを Y としたとき,

Pr(Y16)=k=162020Ck0.2k0.820k1.38108

一方,Markov’s inequalityを用いると

Pr(Y16)416=14

このように,bound幅は大きいことが分かる.

Theorem 5.21 Chebyshev’s inequality

XD(μ,σ2) とする.ただし,D の形状はわからない.実数 α>0 について,以下が成立する

Pr(|Xμ|α)σ2α2

つまり,

Pr(|Xμ|ασ)1α2

Proof

I={x:|xμ|k} とする.

σ2=R(xμ)2f(x)dxI(xμ)2f(x)dxIk2f(x)dx=k2Pr(|xμ|k)

以上より,Pr(|Xμ|k)σ2k2 を得る.

Proof: using Markov’s inequality

(xμ)2 を確率変数と考えると,non-negative確率変数になる,つまりMarkov’s inequalityを用いることができるので

Pr(|xμ|k)=Pr((xμ)2k2)E[(xμ)2]k2Markov’s inequality=σ2k2

  Example 5.9 Markov’s inequality vs Chebyshev’s inequality

XBinom(n=20,p=0.2) について,weak inequality で確認したように,Markov’s inequalityのより

Pr(X16)=Pr(X4E[X])14

一方,Chebyshev’s inequalityを用いると

Pr(X16)Pr(|X4|12)Var(X)1223.2122=145

🍵 Green Tea Break
  • Chebyshev’s inequalityはMarkov’s inqualityと異なり,確率変数 X がnon-negativeである必要はない
  • meanからの距離についての情報を得ることができる

  Example 5.10 : フェアなサイコロと出た目の範囲

n 回独立に6面のフェアなサイコロを投げる試行を考えます.このとき,6の目が出た回数 X[n/6n,n/6+n] に収まる確率は exactに計算するには大変ですが,Chebyshev inequalityを用いてlower bouldを計算することができます.

サイコロをi回目投げたときに出た目について

Zi={1if 6の目がでる0otherwise

という確率変数を考えたとき,

X=i=1nZiBinom(n,1/6)

と表すことができます.このときChebyshev inequalityより

P(|Xμ|k)σ2k2P(|Xμ|n)1n5n36=536

したがって,

P(|Xμ|<n)1536=3136

▶  PythonでのBoundの確認

n の回数を増やしてlower-boundに近づいていくのか確認した所,そのような挙動は以下のように確認されませんでした. 一方,正規分布での近似の値に収束していくことが確認できます.収束先の値 p

p=Φ(1/5/36)Φ(1/5/36)0.9927

Code
import numpy as np
from scipy.stats import binom
import plotly.graph_objects as go
from scipy.stats import norm
from regmonkey_style import stylewizard as sw

sw.set_templates("regmonkey_twoline")

N = np.arange(1, 1000)
p = 1 / 6
norm_instance = norm(N / 6, np.sqrt(N * 5 / 36))

exact_prob = binom.cdf(N / 6 + np.sqrt(N), N, p) - binom.cdf(N / 6 - np.sqrt(N), N, p)
norm_approx = norm_instance.cdf(N / 6 + np.sqrt(N)) - norm(
    N / 6, np.sqrt(N * 5 / 36)
).cdf(N / 6 - np.sqrt(N))
lowerbound_prob = 31 / 36

# Create the plot
fig = go.Figure()

# Add exact probability line
fig.add_trace(
    go.Scatter(
        x=N, y=exact_prob, mode="lines", line=dict(width=3), name="Exact Probability"
    )
)

fig.add_trace(
    go.Scatter(
        x=N,
        y=norm_approx,
        mode="lines",
        line=dict(width=3),
        name="Normal-approx Probability",
    )
)

# Add approximate probability line
fig.add_trace(
    go.Scatter(
        x=N, y=[lowerbound_prob] * len(N), mode="lines", name="Lower-bound Probability"
    )
)

# Add labels and title
fig.update_layout(
    title="Exact vs normal-approx vs lower-bound Probability",
    xaxis_title="N (log-scale)",
    yaxis_title="Probability",
    legend=dict(x=0.8, y=0.99),
    yaxis_range=[0.85, 1.05],
        xaxis=dict(
        type='log',
        tickvals=[1, 10, 100, 1000, 10000, 100000],
        ticktext=['1', '10', '100', '1k', '10k', '100k']
    )
)

# Show the plot
fig.show()
1101000.850.90.9511.05
Exact ProbabilityNormal-approx ProbabilityLower-bound ProbabilityExact vs normal-approx vs lower-bound ProbabilityN (log-scale)Probability

Weak Law of Large Numbers

Theorem 5.22 Weak Law of Large Numbers

平均 μ, 分散 σ2 の分布に独立に従う確率変数 X1,,Xn を考える.標本平均を Xn=1ni=1nXi とする.

このとき,任意の実数 ϵ>0 に対して,

limnPr(|Xnμ|>ϵ)=0

つまり,標本平均は母平均に確率収束する.

Proof

Chebyshev’s inequalityを用いて以下のように示せる

limnPr(|Xnμ|>ϵ)limnVar(Xn)ϵ2=limnσ2nϵ2=0

Stein identity

Theorem 5.23 : スタインの等式

確率変数 XN(μ,σ2) とする.g() が微分可能で E[|g(X)|]< 及び E[|g(X)|]< のとき,

E[(Xμ)g(X)]=σ2E[g(X)]

が成り立つ.

Proof

E[(Xμ)g(X)]=12πσ2g(x)(xμ)((xμ)22σ2)dx

ここで,

h(x)=σ2exp((xμ)22σ2)

とおくと,

h(x)=(xμ)((xμ)22σ2)

従って,

E[(Xμ)g(X)]=12πσ2[h(x)g(x)]12πσ2g(x)h(x)dx=12πσ2[σ2exp((xμ)22σ2)g(x)]+σ22πσ2g(x)exp((xμ)22σ2)dx=σ2E[g(X)]

▶  スタインの等式とモーメント計算

m 次のモーメントは

E[Xm]=E[(Xμ)Xm1+μXm1]=E[(Xμ)Xm1]+μE[Xm1]

ここでスタインの等式を用いると

E[(Xμ)Xm1]=σ2E[(m1)Xm2]

従って,

E[Xm]=σ2E[(m1)Xm2]+μE[Xm1]

分散

Theorem 5.24 : Bienaymé Equality

互いに独立な確率変数 X,Y について以下が成立する

Var(X+Y)=Var(X)+Var(Y)

Proof

Var(X+Y)=E[((X+Y)(μX+μY))2]=E[((XμX)+(YμY))2]=E[(XμX)2]+2E[(XμX)(YμY)]+E[(YμY)2]=E[(XμX)2]+2E[(XμX)]E[(YμY)]+E[(YμY)2]独立性=Var(X)+Var(Y)

なお,確率変数 X,Y が独立ではない場合は

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

が成立します.μX=E[X],μY=E[Y] とすると,

Var(X+Y)=E[(X+Yμxμy)2]=E[(Xμx)2]+2E[(Xμx)(Yμy)]+E[(Yμy)2]=Var(X)+Var(Y)+2Cov(X,Y)

Theorem 5.25 : n個の確率変数の和の分散

確率変数 X1,,Xn, それぞれの期待値が存在し μ1,,μn と表せるとき,

Var(X1+X2++Xn)=inVar(Xi)+2i<jCov(Xi,Xj)

Proof

Var(X1++Xn)=E[(X1++Xnμ1μn)2]=E[{(X1+μ1)++(Xnμn)}2]=E[(Xiμi)2+2i<j(Xiμi)(Xjμj)]=E[(Xiμi)2]+2i<jE[(Xiμi)(Xjμj)]=inVar(Xi)+2i<jCov(Xi,Xj)

条件付き分散

確率変数 X,Y についての条件付き分散は以下のような意味を持つ

  • Var(X|Y=y) は,Y=y と固定したときの X の分散
  • Var(X|Y) は,Y がランダムに選ばれた値に固定された場合の X の分散

Var(X|Y)Y のランダムネスに依存した確率変数である一方, Var(X|Y=y)y の関数という違いがある

Def: 条件付き分散

Var(Y|X)=E[(Y2|X)](E[(Y|X)])2=E[(YE[Y|X])2|X]


Theorem 5.26 Law of Total Variance

Var(Y)=Var(E[Y|X])+EX[Var(Y|X)]

Proof

ϵ=YE[Y|X] としたとき,ϵE[Y|X] は無相関なので,

Var(Y)=Var(E[Y|X])+Var(ϵ)

E[ϵ]=0 より,

Var(ϵ)=E[ϵ2](E[ϵ])2=E[ϵ2]=EX(E[ϵ2|X])=EX[Var(Y|X)]

従って,

Var(Y)=Var(E[Y|X])+EX[Var(Y|X)]

Law of Total Varianceより Y の分散は,CEFの分散 + 誤差項の分散に分解できることを示しています. 実務における分析において,賃金のバラツキを

  • 賃金を説明する各個人の特徴のバラツキ
  • 特徴で説明することのできない賃金のバラツキ(=誤差項)の期待値

に分解して考察する際にLaw of Total Varianceを使用したりします.

歪度と尖度

X1N(1,1)X2Exponential(1) を2つの分布を考えます.どちらも平均,分散共に 1 で一致していますが以下のように分布の形状は大きく異なります.

Code
import numpy as np
import plotly.express as px
import polars as pl

np.random.seed(42)
n = 1000

x1 = np.random.normal(loc=1, scale=1, size=n)
x2 = np.random.exponential(scale=1, size=n)

df = pl.DataFrame({"normal_dist": x1, "exp_dist": x2})

px.histogram(df, histnorm="probability density",
             opacity=0.8, barmode="overlay",
             title='Exp(1) vs Normal(1, 1): same mean and variance')
−2−10123456700.20.40.60.81
variablenormal_distexp_distExp(1) vs Normal(1, 1): same mean and variancevalueprobability density

平均や分散(locationとscale)によって確率分布の様子はある程度わかりますが,locationとscaleが同じにもかかわらず上記の指数分布は N(1,1) に対して,右の裾が長い分布になっています.分布の非対称性や尖りの程度を理解するにあたって尖度と歪度を用いることがあります.

Def: 歪度(skewness)と尖度(kurtosis)

確率変数 X について,歪度と尖度は以下のように定義される

skewness=E[(XE[X]Var(X))3]kurtosis=E[(XE[X]Var(X))4]

🍵 Green Tea Break
  • skewnessはpositiveならば右の裾が長く,negativeならば左に裾が長い, 0ならば対称分布
  • kurtosisは大きいほど,鋭いピークと長く太い裾をもった分布になる
  • skewness,kurtosisともに標準化してから3rd-moment, 4th-momentを計算しているので,non-zeroの a,b を定数としたとき,aX+b と変数変換を行っても,計算結果は変わらない = 尺度の変換関して不変

  Example 5.11 : 一様分布の歪度と尖度

XUnif(0,1) としたとき,一様分布はlocationから左右対称の分布なので計算することなく

skewness=0

とわかる.一方,尖度は

kurtosis=1σ401(x12)4dx=144×15[(x12)5]01=95

標準正規分布の尖度を基準にして

kurtosis=953=65

と表現する場合もある