統計検定:一様分布の性質の紹介

Appendix: 十分統計量

公開日: 2021-12-26

Table of Contents

1. 一様分布の性質

確率変数$X$が閉区間$[a,b]$上の一様分布に従うとは$X$の確率密度関数が

\[f_X(x|a,b) = \begin{cases}\frac{1}{b-a} & \ \ x \in [a,b]\\ 0 & \ \ \text{ otherwise }\end{cases}\]

一様分布の特性値の導出

一様分布の期待値

\[\begin{align*} E[X] &= \int_a^b x \frac{1}{b-a}dx\\[8pt] &= \frac{1}{b-a}\left[\frac{1}{2}x^2\right]^b_a\\[8pt] &= \frac{b+a}{2} \quad\quad\tag{1.1} \end{align*}\]

一様分布の分散

\[\begin{align*} E[X^2] &= \int_a^b x^2 \frac{1}{b-a}dx\\[8pt] &= \frac{1}{b-a}\left[\frac{1}{3}x^3\right]^b_a\\[8pt] &= \frac{1}{3}(b^2 + ab + a^2) \quad\quad\tag{1.2} \end{align*}\]

従って、(1.1)と(1.2)より

\[\begin{align*} V(X) &= \frac{1}{3}(b^2 + ab + a^2) - \left(\frac{b+a}{2}\right)^2\\ &= \frac{1}{12}(b-a)^2 \end{align*}\]

MGFの導出

\[\begin{align*} E[\exp(tX)] &= \int^b_a\exp(tx)\frac{1}{b-a}dx\\[8pt] &= \frac{1}{b-a}\left[\frac{1}{t}\exp(tx)\right]^b_a\\[8pt] &= \frac{\exp(tb) - \exp(ta)}{t(b-a)} \end{align*}\]

累積分布関数と一様分布

命題

連続型確率変数 $X$ の分布関数を$F_X(x)$ とし、新たに確率変数 $Y$ を $Y = F_X(X)$ で定義する.このとき

\[Y \sim \mathrm{U}(0, 1)\]

証明

区間$y \in (0, 1)$に対して、$$_X(x)$は単調増加関数. 従って、

\[\begin{aligned} F_Y(y) &= P(F_X(X)\leq y)\\ &= P(X\leq F^{-1}_X(y))\\ &= F_X(F^{-1}_X(y)) \end{aligned}\]

両辺を$y$で微分すると

\[f_Y(y) = f_X(F^{-1}_X(y))\frac{1}{f_X(F^{-1}_X(y))} = 1\]

従って、$Y \sim \mathrm{U}(0, 1)$となることがわかる.

一様分布のパラメーターの不偏推定量: 2019年11月統計検定1級

確率変数 $X_1, \cdots, X_n$を互いに独立に$Unif(0,\theta)$に従うとします, また$\theta>0$は未知のパラメーターとします.

\[Y = \max(X_1, \cdots, X_n)\]

とするとき、以下の設問に答えよ

  1. $Y$はパラメーター$\theta$に関する十分統計量であることを示せ
  2. $Y$の確率密度関数$g(y)$を示せ
  3. $Y=y$が与えられた時の$X_1, \cdots, X_n$の条件付き同時分布を求めよ
  4. $\mathrm E[Y]$を求め、$Y$の関数s解いて$\theta$の不偏推定量$\tilde\theta$を構成せよ

(1). $Y$はパラメーター$\theta$に関する十分統計量であることを示せ

確率変数 $X_1, \cdots, X_n$の同時確率密度関数は

\[f(\mathrm x|\theta) = \theta^{-n} \ \ (x_i\in [0, \theta])\]

条件の$x_i\in [0, \theta]$は$y\in [0, \theta]$と同値であるので、$f(\mathrm x|\theta)$は$y$のみの関数として表されるので、フィッシャーネイマンの分解定理より$Y$は$\theta$についての十分統計量である.

(2). $Y$の確率密度関数$g(y)$を示せ

$X_i$についてのCDFを$F_i(x) = P(X_i\leq x)$とすると$x\in [0, \theta]$について

\[F_i(x) = \frac{x}{\theta}\]

よって, $y\in [0,\theta]$について

\[\begin{align*} G(y) &= P(Y\leq y)\\ &= P(X_1, \cdot, X_n \leq y)\\ &= F_1(y)\times \cdots \times F_N(y)\\ &= \frac{y^n}{\theta^n} \end{align*}\]

従って、$Y$の確率密度関数$g(y)$は

\[g(y) = \frac{n}{\theta^n}y^{n-1}\]

(3). $Y=y$が与えられた時の$X_1, \cdots, X_n$の条件付き同時分布を求めよ

$Y = y$が与えられた時、$X_1, \cdots, X_n$の条件付き同時確率密度関数は、$X_{(n)} = y$の選び方が$n$通りあることに留意すると

\[\begin{align*} f(x_1, \cdots, x_{n-1}, y|y) &= \frac{f(x_1, \cdots, x_{n-1}, y)}{g(y)}\\ &= \frac{n/\theta^n}{n\theta^{-n}y^{n-1}}\\ &= \frac{1}{y^{n-1}} \end{align*}\]

上記より、$Y=y$が与えられたものでの$X_1, \cdots, X_n$の条件付き確率密度関数がパラメーター$\theta$に依存しないことがわかる

(4). $\mathrm E[Y]$を求め、$Y$の関数s解いて$\theta$の不偏推定量$\tilde\theta$を構成せよ

\[\begin{align*} \mathrm E[Y] &= \int^{\theta}_0y \frac{n}{\theta^n}y^{n-1}dy\\ &= \frac{n}{\theta^n}\int^{\theta}_0y&n dy\\ &= \frac{n}{n+1}\theta \end{align*}\]

従って、

\[\tilde\theta = \frac{n+1}{n}Y\]

とすれば$\theta$の不偏推定量を得る. またこの不偏推定量は唯一の不偏推定量であることを示します.

$C(Y)$を別の不偏推定量とすると定義より、

\[E[C(Y) - \tilde\theta] = 0\]

$\mu(Y)\equiv C(Y) - \tilde\theta$とし、またなめらかな関数とします. このとき、

\[\begin{align*} E[\mu(Y)] &= \int^\theta_0 \mu(y) \frac{n}{\theta^n}y^{n-1}dy\\ \Rightarrow & \int^\theta_0 \mu(y) y^{n-1}dy = 0 \end{align*}\]

これがすべての$\theta$で成り立つためには$y>0$で$\mu(y) y^{n-1} = 0$が成り立つ必要があります(上記積分を$\theta$で微分することで確認可能).

従って、

\[\mu(Y) = 0 \Rightarrow C(Y) = \tilde\theta\]

最尤推定法推定量が不偏推定量ではないことの確認

$Unif(0, \theta)$に従う、確率変数 $X_1, \cdots, X_n$のlikelihoodは

\[L(x_1, \cdots, x_n|\theta) = \left(\frac{1}{\theta}\right)^n\]

$(x_1,\cdots, x_n)\in (0, \theta_{mle})$を満たしつつ尤度を最大化する$\theta_{mle}$は

\[\theta_{mle} = \max(x_1,\cdots, x_n)\]

これは、上述の不偏推定量と一致しないことがわかります.

Appendix

十分統計量

確率分布$f(x|\theta)$からランダムサンプル$(X_1, \cdots, X_n)$が取られているとき、平均や四分位統計量、最大統計量、最小統計量といった統計量を分布の性質を探索する目的で抽出したりします. この点、集約した統計量が$\theta$に関する情報を失っていないとき、その統計量を十分統計量といいます.

なお以下では次のようなノーテーションを用います:

  • $\mathrm X = (X_1, \cdots, X_n)$
  • $\mathrm x = (\it x_1, \cdots, \it{x_n})$

定義:十分統計量

統計量$T(\mathrm X)$が$\theta$に対して十分統計量とは、$T(\mathrm x) = t$ を満たす$\mathrm x$と$t$に対して $T(\mathrm X)=t$を与えたときの$\mathrm X= \mathrm x$の条件付き確率

\[P(\mathrm X= \mathrm x|T(\mathrm X)=t)\]

が$\theta$に依存しないことをいいます. つまり,

\[P(\mathrm X= \mathrm x|T(\mathrm X)=t, \theta) = P(\mathrm X= \mathrm x|T(\mathrm X)=t)\]

例: ベルヌーイ試行と二項分布

$X_1, \cdots, X_n$は独立に$Ber(\theta)$に従うとします. このとき、統計量$T(\mathrm X) = \sum X_i$を考えると、$T(\mathrm X)\sim Bin(n, \theta)$より

\[\begin{align*} &P(\mathrm X = \mathrm x) = \theta^{\sum x_i}(1 - \theta)^{\sum (1 - X_i)}\\[8pt] &P(T(\mathrm X)=t ) = \frac{\Gamma(n+1)}{\Gamma(n-x+1)\Gamma(x+1)}\theta^t(1-\theta)^{n-t} \end{align*}\]

従って、$T(\mathrm X)=t$を与えたときの$\mathrm X= \mathrm x$の条件付き確率は

\[\begin{align*} P(\mathrm X= \mathrm x|T(\mathrm X)=t) &= \frac{\theta^{\sum x_i}(1 - \theta)^{\sum (1 - X_i)}}{\frac{\Gamma(n+1)}{\Gamma(n-t+1)\Gamma(t+1)}\theta^t(1-\theta)^{n-t}}\\[8pt] &= \frac{\Gamma(n-t+1)\Gamma(t+1)}{\Gamma(n+1)} \end{align*}\]

となり、$\theta$に依存しません. 従って、$T(\mathrm X)$は十分統計量となります.

フィッシャーネイマンの分解定理

定理

$T(\mathrm X)$が$\theta$の十分等計量であるための必要十分条件は$\mathrm X = (X_1, \cdots, X_n)$の同時確率関数もしくは同時確率密度関数$f(x_1, \dots, x_n|\theta)$が$\theta$に依存する部分とそうでない部分に分解でき、$\theta$に依存する部分は$T(\cdot)$を通してのみ$\mathrm x$に依存する. すなわち、

\[f(x_1, \dots, x_n |\theta) = h(\mathrm x)g(T(\mathrm X)|\theta)\]

証明

(必要性)

$t=T(\mathrm x)$なる$\mathrm x$に対して、

\[\begin{align*} f(\mathrm x|\theta) &= P(\mathrm X = \mathrm x, T(\mathrm X) = t|\theta)\\ &= P(\mathrm X = \mathrm x| T(\mathrm X) = t)P(T(\mathrm X) = t |\theta)\\ &= f(\mathrm x|T(\mathrm x))g(T(\mathrm x)|\theta) \end{align*}\]

(十分性)

\[\begin{align*} P(T(\mathrm X)=t|\theta) &= \int_{\mathrm x:T(\mathrm x)=t}f(\mathrm x|\theta)d\mathrm x\\ &= \int_{\mathrm x:T(\mathrm x)=t}h(\mathrm x)g(T(\mathrm X)=t|\theta)d\mathrm x\\ &= g(t|\theta)\int_{\mathrm x:T(\mathrm x)=t}h(\mathrm x)d\mathrm x \end{align*}\]

となることに留意すると、

\[\begin{align*} P(\mathrm X =\mathrm x|T(\mathrm X)=t, \theta) &= \frac{P(\mathrm X =\mathrm x, T(\mathrm X)=t|\theta)}{P(T(\mathrm X)=t|\theta)}\\ &= \frac{P(\mathrm X =\mathrm x|\theta)}{P(T(\mathrm X)=t| \theta)}\\ &= \frac{g(T(\mathrm x)|\theta)h(\mathrm x)}{g(t|\theta)\int_{\mathrm x:T(\mathrm x)=t}h(\mathrm x)d\mathrm x}\\ &=\frac{h(\mathrm x)}{\int_{\mathrm x:T(\mathrm x)=t}h(\mathrm x)d\mathrm x} \end{align*}\]

従って、$\theta$に依存しないことから$T(\mathrm X)$が十分統計量であることがわかる.

References



Share Buttons
Share on:

Feature Tags
Leave a Comment
(注意:GitHub Accountが必要となります)