16  正規分布

Author

Ryo Nakagami

Published

2024-09-14

Modified

2024-10-19

正規分布の性質

Def: 正規分布

確率変数 X が平均と分散 μ,σ2 をもつ正規分布に従う,つまり XN(μ,σ2) のとき,X の確率密度関数 fX(x)

fX(x)=12πσ2exp{(xμ)22σ2},<x<

XN(μ,σ2) について,標準化変換(standardization)

Z=Xμσ

を行うと,変数変換の公式より

fZ(z)=σfX(σz+μ)=12πexp{z22}

となります.N(0,1) のことを特に標準正規分布とよび,そのpdfを ϕ(z), CDFを Φ(z) で表します.

fX(x) の形状から,location parameter μ を中心に対称であることが分かる.つまり, ϕ(z)z=0 で対称であり

Φ(0)=12Φ(z)=1Φ(z)

がわかる.

▶  σ 範囲

XN(μ,σ2) という確率分布を考えたとき,シグマ範囲の目安として以下が知られてます

Pr(|Xμ|>σ)13Pr(|Xμ|>2σ)120Pr(|Xμ|>3σ)31000Pr(|Xμ|>4σ)110000

大体の目安として, 3σ 範囲はいわゆる「千三つ」であることは覚えといて損はないと思います.

Theorem 16.1

12πσ2exp{(xμ)22σ2}dx=1

が成立する.

Proof

z=xμσ と変数変換をすると

12πexp{z22}dz=1

が示せれば良い.

I=exp{z22}dz

とおくと,

I2=(exp{z22}dz)2=exp{a2+b22}dadb

ここで,a=rcosθ,b=rsinθ と極座標変換を行う. ヤコビアン J

|J|=|arbθaθbr|=r

より I2=exp{a2+b22}dadb=002πexp{r22}rdθdr=2π0exp{r22}rdr=2π[exp{r22}]0=2π

以上より, I=2π を得る.

12πexp{z22}dz=12πI=1

Theorem 16.2

標準正規分布の確率密度関数を ϕ(x) とするとき,

Rxϕ(x)dx=0Rx2ϕ(x)dx=1

が成立する.

Proof

ϕ(x) が偶関数,x が奇関数より, xϕ(x) は奇関数になる.従って,

Rxϕ(x)dx=0

2次モーメントについては

Rx2ϕ(x)dx=20x2ϕ(x)dx=2[xexp(x2/2)]0+20ϕ(x)dx=0+2×12=1

Theorem 16.3

確率変数 XN(μ,σ2) のとし,f(x) をその確率密度関数とする,このとき,

Rxf(x;μ,σ2)dx=μR(xμ)2f(x;μ,σ2)dx=σ2

が成立する.

Proof

▶  location parameterについて

z=xμ と変数変換をすると,ddzx=1 より

Rxf(x;μ,σ2)dx=12πσ2Rexp((xμ)22σ2)xdx=12πσ2Rexp(z22σ2)(z+μ)dz=12πσ2Rexp(z22σ2)zdz偶関数×奇関数+12πσ2Rexp(z22σ2)μdz=μ

▶  scale parameterについて

確率密度関数より

Rexp((xμ)22σ2)dx=2πσ2

両辺について σ2 で微分すると

RHS=122π(σ2)12LHS=Rexp((xμ)22σ2)(xμ)22(σ2)2dx

これを整理すると

12πσ2Rexp((xμ)22σ2)(xμ)2dx=σ2

これは

E[(Xμ)2]=σ2

に相当する.

  Example 16.1 : 標準正規分布の4次モーメントの導出

XN(0,1) の4次モーメントについて,ガンマ関数 Γ(1/2)=π を用いて以下のように計算できます.

E[X4]=12πx4exp(x22)dx=22π0x4exp(x22)dx偶関数より

ここで, x2=u という変数変換を行う.

22π0x4exp(x22)dx=22π0u2exp(u2)u1/22du=12π0u521exp(u2)du=12πΓ(52)(12)5/2=π12322π25/2=3

▶  標準正規分布のn次モーメントについて

標準正規分布について,ϕ(z) が偶関数であることから,n が奇数のときは

E[Xn]=0

であることはすぐに分かります.一方,l を自然数として, n=2l と表せるときは

E[Xn]=12πxnexp(x22)dx=22π0x2lexp(x22)dx

x2/2=u と変数変換を行うと,dxdu=12u より

E[Xn]=2l+12π0ulexp(u)12udu=2lπ0ul12exp(u)du=2lπ0ul+121exp(u)du=2lπΓ(l+12)

Γ(1/2)=π であることに留意すると

Γ(32)=12Γ(12)Γ(52)=32Γ(32)=1×322π

になるので

E[Xn]=1×3×5××(2l1)=i=1l(2i1)

またはこれを変形して,

12l!E[X2l]=k=1l12k

と表すこともできます.

MGFと特性関数

Theorem 16.4 : 標準正規分布の積率母関数と特性関数

XN(0,1) としたとき,積率母関数 MZ(t) 及び,特性関数 φZ(t) は以下のようになる

MZ(t)=exp(t2/2)φZ(t)=exp(t2/2)

Proof

MZ(t)=E[exp(tZ)]=12πexp(tzz2/2)dz=exp(t2/2)12πexp((tz)2/2)dz=exp(t2/2)

特性関数は φ(t)=MZ(it) より φ(t)=exp(t2/2) とわかるが,以下のように計算することもできる.

φZ(t)=E[exp(itZ)]=E[cos(tZ)+isin(tZ)]=E[cos(tZ)]+iE[sin(tZ)]=cos(tz)ϕ(z)dz+isin(tz)ϕ(z)dz=cos(tz)ϕ(z)dz奇関数

次に,t について φZ(t) を微分すると

ddtφZ(t)=ddtE[exp(itZ)]=E[ddtexp(itZ)]期待値と微分の順序交換性=iE[Zexp(itZ)]=zsin(tz)ϕ(z)dz

このとき,

dzϕ(z)=zϕ(z)

であるので

zsin(tz)ϕ(z)dz=[sin(tz)ϕ(z)]tcos(tz)ϕ(z)dz=tcos(tz)ϕ(z)dz=tφZ(t)

ddtφZ(t)=tφZ(t)

φZ(0)=1 より,

φZ(t)=exp(t2/2)

Theorem 16.5 : MGF of non-standard normal distribution

XN(μ,σ2) の積率母関数および特性関数は

MX(t)=exp(μt+12σ2t2)φX(t)=exp(iμtt2σ22)

Proof

ZN(0,1) とすると,Z=σZ+μ と表せるので,

MX(t)=E[exp(t(σZ+μ))]=exp(tμ)E[exp(tσZ)]=exp(tμ)exp(12t2σ2)=exp(μt+12σ2t2)

同様に

φX(t)=E[exp(it(σz+μ))]=exp(itμ)E[exp(itσz)]=exp(iμtt2σ22)

Proof: 直接計算

MX(t)=12πσ2Rexp(tx)exp((xμ)22σ2)dx=12πσ2Rexp((x(tσ2+μ))22σ2)exp(tμ+t2σ22)dx=exp(tμ+t2σ22)

Theorem 16.6

XN(μ,σ2) とする.定数 a,b に対して

Y=aX+b

としたとき,YN(aμ+b,a2σ2) となる.

Proof

N(aμ+b,a2σ2) に従う確率変数の特性関数は

φ(t)=exp[(aμ+b)ita2σ2t22]

なので,Y の特性関数がこれと一致することを示せば良い.

φY(t)=E[exp(itY)]=E[exp(it(aX+b))]=exp(itb)exp(iaμta2σ2t22)=exp[(aμ+b)ita2σ2t22]

正規分布の再生性

Def: 確率分布の再生性

確率分布 F について,2 つの独立な確率変数 X,YF に従うとする.このとき,

Z=X+YZF

が成立するとき,確率分布 F は再生性をもつという.

二項分布,負の二項分布,ポアソン分布,正規分布などは,再生性を持つことがしられています.

Theorem 16.7 : 正規分布の再生性

正規分布は,location parameter, scale parameter両方について再生性を持つ.つまり,

XN(μx,σx2),YN(μy,σy2)X+YN(μx+μy,σx2+σy2)

Proof: MGFを用いた証明

確率変数 X,Y は独立なので

MX+Y(t)=MX(t)MY(t)=exp(μxt+σx2t2)exp(μyt+σy2t2)=exp((μx+μy)t+(σx2+σy2)t2)

X+Y のMGFが N(μx+μy,σx2+σy2) のMGFと一致するので

X+YN(μx+μy,σx2+σy2)

Proof: 畳み込みを用いた証明

確率変数 X,Y のそれぞれの密度関数を fX(x),fY(y) で表したとき,Z=X+Y の確率密度関数 p(z) は畳み込みにより以下のように表せます.

p(z)=fX(x)fY(zx)dx

従って,

p(z)=12πσXσYexp((xμx)22σX2((zx)μy)22σY2)dx

ここで,最終項の指数部分について,x についてまとめると

(xμx)22σX2((zx)μy)22σY2=σx2+σy22σx2σy2(xzσx2μxσy2+μyσx2σx2+σy2)2(z(μx+μy))22(σx2+σy2)

ここでガウス積分より,

exp(σx2+σy22σx2σy2(xC)2)dx=2πσx2σy2σx2+σy2

以上より,

p(z)=12πσx2σy2exp((z(μx+μy))22(σx2+σy2))

これは,N(μx+μy,σx2+σy2) の確率密度関数と一致するので,

X+YN(μx+μy,σx2+σy2)

Theorem 16.8 : n個の正規分布の再生性

確率変数 X1,,Xn が互いに独立に N(μi,σi2) に従うとする. (a1,,an,b)を定数としたとき,確率変数 Y=iaiXi+b について,

YN(a1μ1++anμn+b,a12σ2+,+ansσ2)

が成立する.

Proof

aiXiN(aiμi,ai2σ2) 及び,互いに独立な確率変数の合計和なので

MY(t)=E[exp(tY)]=E[exp(t(a1X1++anXn+b))]=exp(tb)i=1nexp[taiμi+t2ai2σi22]=exp[(a1μi++a1μn+b)t+t2(a12σ12++an2σn2)2]

これは確率分布 N(a1μ1+,+anμn+b,a12σ2+,+ansσ2) の積率母関数と一致するので

YN(a1μ1++anμn+b,a12σ2+,+ansσ2)

が成立する.

Differential Entropy

Def: 微分エントロピー

連続確率変数 X について,確率密度関数が p(x) で与えられているとする.このとき,微分エントロピーは以下の形で定義される

H(X)=Xp(x)logbp(x)dx

なお,b は通常 2,e が用いられる

平均 μ, 分散 σ2 をもつ確率分布のうち,正規分布は微分エントロピーを最大にする分布として知られています.

▶  N(μ,σ2) の微分エントロピー

N(μ,σ2) の確率密度関数を f(x) として,微分エントロピーの定義より

H=f(x)log2f(x)dx=f(x)log2(12πσ2exp((xμ)22σ2))dx=log2(2πσ2)2f(x)dx+log2e2σ2(xμ)2f(x)dx=12log2(2πeσ2)

なお,自然対数で表現する場合,H=12[1+ln(2πσ2)]

Theorem 16.9

平均 μ, 分散 σ2 をもつ確率分布のうち,正規分布は微分エントロピーを最大にする分布である.

Proof: ラグランジュの未定係数法

(注意: 制約付き最大化問題を解くにあたって,ラグランジュの未定係数法が使用できると仮定してます)

▶  汎関数の定義

F(p(x),λ1,λ2,λ3)=p(x)ln(p(x))dx+λ1[p(x)dx1]+λ2(xμ)p(x)dx+λ3[(xμ)2p(x)dxσ2]

▶  極値条件の計算

(A)Fp(x)=(1+ln(p(x))λ1λ2(xμ)λ3(xμ)2)dx=0(B)Fλ1=p(x)dx1=0(C)Fλ2=(xμ)p(x)dx=0(D)Fλ3=(xμ)2p(x)dxσ2=0

▶  条件(A)の整理

条件 (A) より以下を得る

(E)p(x)=exp(1+λ1+λ2(xμ)+λ3(xμ)2)

なお扱いやすいように z=xμ として以下の形で表す.

(E’)p(x)=exp(1+λ1+λ2z+λ3z2)

▶  λ1 の消去

(E)(B) に代入すると,dxdz=1 より

exp(1+λ1++λ2z+λ3z2)dz=exp(1+λ1)exp(λ24λ3)exp(λ3(z+λ22λ3)2)dz=1

このとき,等号が成立するためには λ3<0 が必要であることが分かる.また,ガウス積分より

(F)exp(λ3(z+λ22λ3)2)dz=πλ3

従って,

(G)p(x)=λ3πexp(λ3(z+λ22λ3)2)

▶  λ2 の消去

(G)(C) より

(H)λ3πzexp(λ3(z+λ22λ3)2)dz=0

(H)=0 が成立するためには,exp(λ3(z+λ22λ3)2) が偶関数になる必要があるので

λ22λ3=0λ2=0

従って,

(I)p(x)=λ3πexp(λ3z2)

▶  λ3 の消去

(I),(D) を整理すると

λ3πz2exp(λ3z2)dz=σ2

x2exp(ax2)dx=π2aa より

λ3πz2exp(λ3z2)dz=λ3ππ2λ3λ3=12λ3

従って,

λ3=12σ2

以上より, 微分エントロピーを最大化する p(x)

p(x)=12πσ2exp((xμ)22σ2)

となり,正規分布となることが分かる.

📘 REMARKS

  • λ2=0 より location paramter μ を変化させても,微分エントロピーは限界的には増えないことが分かります
  • λ3<0 より scale paramter σ2 を増大させると,微分エントロピーは限界的に増大することも分かります

他の確率分布との関係性

  Example 16.2 : 二項分布の極限分布としての正規分布<

n を正の整数として,YnBinom(n,1/2) とし,

Xn=Ynn/2n/2

という確率変数を考えます.Xn(x2/n,x] となるような確率を考えてみると

Pr(x2/n<Xnx)=Pr(n2x+n21<Ynn2x+n2)=Pr(Yn=n2x+n2)=n!n2x+n2!n2x+n2!(12)n

ここでスターリングの公式より十分大きい正の整数 m について

m!2πmmmexp(m)

と近似できるので

limnPr(x2/n<Xnx)=limnn!n2x+n2!n2x+n2!(12)n=limn12π(n4x24)(1x2n)n2(1+xn)n2x(1xn)n2x(12)n=12πexp(x2/2)exp(x2/2)exp(x2/2)=12πexp(x2/2)=ϕ(x)