確率的変動を考慮する際に,ランダムネスを要約した統計量として期待値を用いる場面は多いです.例えば, マーケティング担当者は,プロモーションの提供によって得られるリターンの期待値に基づいてプロモーションの実施を判断しますし, 投資家はさまざまな金融商品の期待リターンとリスクに基づいてポートフォリオを選択したりします.
期待値の性質
Def: 連続確率変数の期待値
を確率変数 の確率密度関数とする. のとき, の期待値は以下のように定義する:
また, の関数 の期待値は ならば
定義より確率密度関数で重みづけた平均が確率変数の期待値になると解釈することができます.meanは分布の位置を表すパラメーターとも解釈できるので location parameter(位置母数) と呼ぶこともあります.一方,標準偏差 はscale parameter(尺度母数) といいます.
▶ Example 5.1 指数分布の期待値
rate parameter の指数分布に従う確率変数 を考えます.
指数分布は電球の寿命などに応用される分布ですが,rate parameter が小さいほど期待値(= 電球の寿命)が大きくなることが分かります.
▶ Example 5.2 期待値が定義できない離散分布
確率変数 のsupportを加算集合 とする.確率関数を
このとき,
と確率の公理を満たしていることが分かる.一方,
従って,確率変数 の分布は,期待値が定義できない分布であることがわかる.
▶ Example 5.3 期待値が定義できない連続分布
確率密度関数
という確率変数 を考える.
一方,
従って,確率変数 の分布は,期待値が定義できない分布であることがわかる.
▶ 離散確率変数の変数変換と期待値
離散型確率変数 について を考えたとき, とおくと
上の式展開では, としています.
▶ 期待値と重心
期待値の解釈の1つとして 確率変数 の重心と考えるパターンがあります. の値を の確率でとる離散型確率変数 の場合,
重さのない棒の中央を原点とする
原点から右側をプラス,左側をマイナスとして,原券からの距離 の場所に重さ のおもりを吊り下げる
このとき,重心 はモーメントの釣り合い = 右回りモーメントが0になる地点となりますが
従って, より,期待値と重心が対応することがわかります.連続型確率変数でも確率密度関数を重さのある棒の断面積と みなすことで離散型と同じく期待値と重心が対応することを確かめることができます.
Theorem 5.1 Tail probabilities
の定義域をもつ非負確率変数 を考える. を累積分布関数とするとき
Theorem 5.2 Tail probabilities
をもつ非負の確率変数 について, を分布関数とすると
について, とは限らない点に注意が必要です.
Theorem 5.3
の定義域をもつ非負確率変数 を考える. が定義可能及び, を累積分布関数とするとき
▶ Example 5.4 : Discrete Tail Probability
同様の考えで定義域を とする離散確率変数 について
が成立します.
従って,
▶ Example 5.5
とする離散確率変数 について
も成立する.
Theorem 5.4 期待値の線型性
を実数,確率変数 について以下が成り立つ
確率変数 が有限加算な標本空間で定義されているケースにて以下を示す.
▶ 1.
確率変数 は , 確率変数 は の値をそれぞれ取りうるとする. このとき, の標本空間 について が成り立つ.
としたとき,
▶ 2.
期待値の線型性定理 の応用として, 期待値が定義できるという前提の下,
が成り立ちます.
上記のように確認できます.
▶ Example 5.6 : 変数変換と分散
mean をもつ確率変数 と実数 について
が成立します.証明は以下,
Theorem 5.5 : 確率変数の標準化
確率変数 について, が存在するとき,
とおくと, が成立する.
Theorem 5.6 positive operator
確率変数 について, が成り立つとき,
より . 期待値はpositive operatorなので
従って,期待値の線型性を用いると
Theorem 5.8 Schwarz inquality
確率変数 についてシュワルツの不等式が成立することを示せ
Quadratic functionを以下のように定義します
このとき, はnon-negativeなので判別式について以下が成立する
従って,
Theorem 5.9 : Triangle inequality
確率変数 について,以下のような三角不等式が成立することを示せ
シュワルツの不等式を用いて以下のように示せる
両辺について,square rootをとると,
独立な確率変数と期待値
Theorem 5.10 互いに独立な確率変数の積の期待値
を満たす, 確率空間 上で定義された確率変数 を考える. であるとき,次が成立する
Theorem 5.11 互いに独立な確率変数についての関数の積の期待値
を満たす, 確率空間 上で定義された確率変数 を考える. また,関数 , は期待値が存在するとする. であるとき,次が成立する
条件付き期待値
Theorem 5.12 Law of Total Expectation
LTEの法則より
が成立します.
なお, の違いには注意が必要です.前者は確率変数ですが, 後者は確率変数の実現値の取りうる値を表しています. を の値を取る離散確率変数とすると, は 個の値を取る離散確率変数となります.
Theorem 5.13
を を満たす の任意の関数とする.このとき,
が成り立つ.
Theorem 5.14 : CEF Decomposition Property
確率変数 について,
としたとき,
は について mean-independent, つまり,
は の任意の関数に対して無相関, つまり,
▶ (1)
▶ (2)
▶ (3)
条件付き期待値の公式 より
CEF Decomposition Propertyは,確率変数 は確率変数 で説明できるパートと, の任意の関数と直行(orthogonal) な誤差項のパートに分解できることを示しています.
Theorem 5.15 : MSE minimizer
を の任意の関数とする.このとき,
が成立する.つまり, は, のすべての関数の中で,MSEの意味で の最良近似を与える.
Moments
Def: モーメント
を満たすような正の整数 に対して,確率変数 のthe r-th moment(原点周りのモーメント)は以下のように定義される
the r-th central moment(平均周りのモーメント)は と定義される.
原点周りのモーメントと平均周りのモーメントは以下のような関係で理解することができます. とすると,
両辺の期待値をとると
また,平均周りのモーメントを原点周りのモーメントで表すとなると,
同様に期待値をとると
Theorem 5.16 : higher moment and lower moment
のとき, について, が成立する.
関数 を
関数 を と定義する. より,
このとき,
従って,
Theorem 5.17 : Mean minimizes squared error
確率変数 について, とする.このとき,
とおく.
が成立し,また, 等号成立条件は .従って,
Markov and Chebyshev Inequalities
確率変数 について,確率密度関数や分布関数がわかっている状況は少ないです.また,データが得られたとしても それらを計算することはかんたんではありません.その中で,
が mean からどれくらい離れる可能性があるのか
のupper boundはどれくらいか?
という統計的推測をしたいときに使用されるMarkov and Chebyshev Inequalitiesを解説します.
Theorem 5.18 Markov’s Inequality
non-negative 確率変数 ,constant について以下が成立する
つまり,
Theorem 5.19 Markov’s Inequality with function
確率変数 の関数 が を満たすとする.任意の正の実数 に対して
が成立する.
Theorem 5.20
確率変数 の関数 が かつ を満たすとする. このとき,
背理法で示します. とすると,ある について となります.
マルコフ不等式より,
となるはずですが,これは に矛盾.従って,. が成り立ちます.
📘 REMARKS
Markov’s inequalityは 確率変数 がnon-negative, population mean の知識のみで使用可能
一方,bound幅は大きく,weakest inequalityである
▶ Example 5.7
点数範囲が の試験をついて,そのテストスコア確率変数 を考える.分布の情報はわからないが population meanは 25 であることが知られている.このとき, のupper boundはMarkov’s inequalityを用いて 以下のように計算できます.
がnon-negativeなので
▶ Example 5.8 : weak inequality
を20回繰り返す試行を考える.この試行の結果のアウトカムを としたとき,
一方,Markov’s inequalityを用いると
このように,bound幅は大きいことが分かる.
Theorem 5.21 Chebyshev’s inequality
とする.ただし, の形状はわからない.実数 について,以下が成立する
つまり,
を確率変数と考えると,non-negative確率変数になる,つまりMarkov’s inequalityを用いることができるので
▶ Example 5.9 Markov’s inequality vs Chebyshev’s inequality
について,weak inequality で確認したように,Markov’s inequalityのより
一方,Chebyshev’s inequalityを用いると
Chebyshev’s inequalityはMarkov’s inqualityと異なり,確率変数 がnon-negativeである必要はない
meanからの距離についての情報を得ることができる
▶ Example 5.10 : フェアなサイコロと出た目の範囲
回独立に6面のフェアなサイコロを投げる試行を考えます.このとき,6の目が出た回数 が に収まる確率は exactに計算するには大変ですが,Chebyshev inequalityを用いてlower bouldを計算することができます.
サイコロをi回目投げたときに出た目について
という確率変数を考えたとき,
と表すことができます.このときChebyshev inequalityより
したがって,
▶ PythonでのBoundの確認
の回数を増やしてlower-boundに近づいていくのか確認した所,そのような挙動は以下のように確認されませんでした. 一方,正規分布での近似の値に収束していくことが確認できます.収束先の値 は
Code
import numpy as np
from scipy.stats import binom
import plotly.graph_objects as go
from scipy.stats import norm
from regmonkey_style import stylewizard as sw
sw.set_templates("regmonkey_twoline" )
N = np.arange(1 , 1000 )
p = 1 / 6
norm_instance = norm(N / 6 , np.sqrt(N * 5 / 36 ))
exact_prob = binom.cdf(N / 6 + np.sqrt(N), N, p) - binom.cdf(N / 6 - np.sqrt(N), N, p)
norm_approx = norm_instance.cdf(N / 6 + np.sqrt(N)) - norm(
N / 6 , np.sqrt(N * 5 / 36 )
).cdf(N / 6 - np.sqrt(N))
lowerbound_prob = 31 / 36
# Create the plot
fig = go.Figure()
# Add exact probability line
fig.add_trace(
go.Scatter(
x= N, y= exact_prob, mode= "lines" , line= dict (width= 3 ), name= "Exact Probability"
)
)
fig.add_trace(
go.Scatter(
x= N,
y= norm_approx,
mode= "lines" ,
line= dict (width= 3 ),
name= "Normal-approx Probability" ,
)
)
# Add approximate probability line
fig.add_trace(
go.Scatter(
x= N, y= [lowerbound_prob] * len (N), mode= "lines" , name= "Lower-bound Probability"
)
)
# Add labels and title
fig.update_layout(
title= "Exact vs normal-approx vs lower-bound Probability" ,
xaxis_title= "N (log-scale)" ,
yaxis_title= "Probability" ,
legend= dict (x= 0.8 , y= 0.99 ),
yaxis_range= [0.85 , 1.05 ],
xaxis= dict (
type = 'log' ,
tickvals= [1 , 10 , 100 , 1000 , 10000 , 100000 ],
ticktext= ['1' , '10' , '100' , '1k' , '10k' , '100k' ]
)
)
# Show the plot
fig.show()
1 10 100 0.85 0.9 0.95 1 1.05
Exact Probability Normal-approx Probability Lower-bound Probability Exact vs normal-approx vs lower-bound Probability N (log-scale) Probability
Weak Law of Large Numbers
Theorem 5.22 Weak Law of Large Numbers
平均 , 分散 の分布に独立に従う確率変数 を考える.標本平均を とする.
このとき,任意の実数 に対して,
つまり,標本平均は母平均に確率収束 する.
Chebyshev’s inequalityを用いて以下のように示せる
Stein identity
Theorem 5.23 : スタインの等式
確率変数 とする. が微分可能で 及び のとき,
が成り立つ.
▶ スタインの等式とモーメント計算
次のモーメントは
ここでスタインの等式を用いると
従って,
分散
Theorem 5.24 : Bienaymé Equality
互いに独立な確率変数 について以下が成立する
なお,確率変数 が独立ではない場合は
が成立します. とすると,
Theorem 5.25 : n個の確率変数の和の分散
確率変数 , それぞれの期待値が存在し と表せるとき,
条件付き分散
確率変数 についての条件付き分散は以下のような意味を持つ
は, と固定したときの の分散
は, がランダムに選ばれた値に固定された場合の の分散
は のランダムネスに依存した確率変数である一方, は の関数という違いがある
Theorem 5.26 Law of Total Variance
としたとき, と は無相関なので,
より,
従って,
Law of Total Varianceより の分散は,CEFの分散 + 誤差項の分散に分解できることを示しています. 実務における分析において,賃金のバラツキを
賃金を説明する各個人の特徴のバラツキ
特徴で説明することのできない賃金のバラツキ(=誤差項)の期待値
に分解して考察する際にLaw of Total Varianceを使用したりします.
歪度と尖度
と を2つの分布を考えます.どちらも平均,分散共に 1 で一致していますが以下のように分布の形状は大きく異なります.
Code
import numpy as np
import plotly.express as px
import polars as pl
np.random.seed(42 )
n = 1000
x1 = np.random.normal(loc= 1 , scale= 1 , size= n)
x2 = np.random.exponential(scale= 1 , size= n)
df = pl.DataFrame({"normal_dist" : x1, "exp_dist" : x2})
px.histogram(df, histnorm= "probability density" ,
opacity= 0.8 , barmode= "overlay" ,
title= 'Exp(1) vs Normal(1, 1): same mean and variance' )
−2 −1 0 1 2 3 4 5 6 7 0 0.2 0.4 0.6 0.8 1
variable normal_dist exp_dist Exp(1) vs Normal(1, 1): same mean and variance value probability density
平均や分散(locationとscale)によって確率分布の様子はある程度わかりますが,locationとscaleが同じにもかかわらず上記の指数分布は に対して,右の裾が長い分布になっています.分布の非対称性や尖りの程度を理解するにあたって尖度と歪度を用いることがあります.
Def: 歪度(skewness)と尖度(kurtosis)
確率変数 について,歪度と尖度は以下のように定義される
skewnessはpositiveならば右の裾が長く,negativeならば左に裾が長い, 0ならば対称分布
kurtosisは大きいほど,鋭いピークと長く太い裾をもった分布になる
skewness,kurtosisともに標準化してから3rd-moment, 4th-momentを計算しているので,non-zeroの を定数としたとき, と変数変換を行っても,計算結果は変わらない = 尺度の変換関して不変
▶ Example 5.11 : 一様分布の歪度と尖度
としたとき,一様分布はlocationから左右対称の分布なので計算することなく
とわかる.一方,尖度は
標準正規分布の尖度を基準にして
と表現する場合もある