Big OpとLittle Op
Big OpとLittle Opは,ある確率変数が(ある上限やゼロに)どのように収束するかの表記表現です.
Definition 4 probability limitとLittle Op
確率変数列 \(\{x_N\}\) が定数 \(a\) に確率収束するとは, 任意の \(\epsilon >0\) に対して
\[
P[|x_N - a|>\epsilon] \to 0 \ \ \text{as } \ \ N \to \infty
\]
が成立することである.これを以下のように表記する
\[
\begin{align}
x_N & \overset{p}{\to}a\\
\mathrm{plim}\,\ x_N &= a
\end{align}
\]
とくに,\(a = 0\) のとき,
\[
x_n = \omicron_p(1)
\]
と表記する.
確率収束は次のようにリフレーズすることができます:
\[
\forall \epsilon >0, \forall \delta >0 , \exists n_0 \in \mathbb N [n\geq n_0 \Rightarrow P(|X_n - \alpha| > \epsilon) < \delta]
\]
- \(\epsilon\): accuracy level
- \(\delta\): confidence level
- 任意に与えられたaccuracyとconfidenceの水準に対して,\(n\) が十分大きければ \(X_n\) は指定した精度と信頼度の範囲内で \(\alpha\) に等しくなる
- 確率収束は \(N\) が十分大きければ \(X_N\) は \(\alpha\) 近傍にほぼ確実に存在すると解釈できる
Example 4
\(X_1, \cdots, X_n, \cdots\) を互いに独立な確率変数として,それらの確率関数を
\[
X_n = \left\{\begin{array}{c}
0 & \text{with probability} \ \ 1 - \frac{1}{n}\\
n & \text{with probability} \ \ \frac{1}{n}
\end{array}\right.
\]
とします.このとき,
\[
P[|X_n| > \epsilon] = P[X_n > \epsilon] = \frac{1}{n} \to 0 \ \ (n\to \infty)
\]
であるので,\(X_n\) は0に確率収束 \(X_n = \omicron_p(1)\) することがわかります.
確率収束と二乗収束
確率変数 \(X_n\) が二乗収束するとします.つまり,
\[
\lim_{n\to N}\mathbb E[(X_n - X)^2] = 0
\]
\(X_n\) が確率収束するならば,確率収束の定義とマルコフ不等式より
\[
\begin{align}
P[|X_n - X| > \epsilon]
&= P[(X_n - X)^2 > \epsilon^2]\\
&\leq \frac{E[(X_n - X)^2]}{\epsilon^2}
\end{align}
\]
従って,\(X_n\overset{m.s.}{\to} X \Longrightarrow X_n\overset{p}{\to} X\) が成立します. 一方,逆は成立しません.
Example 4 は確率収束の例でしたが,
\[
\begin{align}
E[(X_n)^2] = \frac{1}{n}n^2 = n \to\infty \text{ as } \ \ n\to\infty
\end{align}
\]
graph LR
A[Almost Sure Convergence] --> B[Convergence in Probability]
B --> C[Convergence in Distribution]
D[Lᵖ Convergence] --> B
Definition 5 Big Op
確率変数列 \(\{x_N\}\) が bounded in probability であるとは,任意の \(\epsilon >0\) について,
\[
\exists b_\epsilon > 0, N_\epsilon \Longrightarrow P(|x_N| \geq b_\epsilon) < \epsilon \, \ \forall N\geq N_{\epsilon}
\]
が成立することである.これを \(x_N = \mathcal{O}_p(1)\) と表記する.
スモールオーダーとラージオーダーとOp
\(C_N\) を非確率変数数列とします.このとき,
\[
\begin{align}
C_N = \mathcal{O}_p(1) \ \ & \text{if and only if} \ \ C_N = \mathcal{O}(1)\\
C_N = \omicron_p(1) \ \ & \text{if and only if} \ \ C_N = \omicron(1)
\end{align}
\]
Theorem 2 Probability limit and Big Op
\(x_N \overset{p}{\to} a\) が成立するならば \(x_N = \mathcal{O}_p(1)\)
\(x_N \overset{p}{\to} a\) より
\[
\forall \epsilon, \delta > 0, \exists N_\epsilon, N \geq N_\epsilon\Rightarrow P(|x_N - \alpha| > \delta) < \epsilon
\]
次に \(|X_n|\) について考えると
\[
\begin{align}
&|X_n| = |X_n - \alpha + \alpha| \leq |X_n - \alpha| + |\alpha| \because{三角不等式}\\
&\Rightarrow |X_n| - |\alpha| \leq |X_n - \alpha|
\end{align}
\]
従って,\(\forall \epsilon, \delta > 0, \exists N_\epsilon, N \geq N_\epsilon\) について
\[
\begin{align}
&P(|x_N - \alpha| > \delta) < \epsilon\\
&\Rightarrow P(|X_n| - |\alpha| > \delta) < \epsilon\\
&\Rightarrow P(|X_n| > |\alpha| + \delta) < \epsilon
\end{align}
\]
任意の \(\delta > 0\) について成立するので,\(b_\epsilon = |\alpha| + 1\) とすれば \(X_n=\mathcal{O}_p(1)\) が成立する.
Definition 6 確率収束オーダー
- 確率変数列 \(X_N\) と非確率変数列 \(a_N >0\) について \(X_N/a_N = \omicron_p(1)\) であるとき,\(X_n = \omicron_p(a_N)\) であるという
- 確率変数列 \(X_N\) と非確率変数列 \(a_N >0\) について \(X_N/a_N = \mathcal{O}_p(1)\) であるとき,\(X_n = \mathcal{O}_p(a_N)\) であるという
Definition 6 より,確率変数列 \(x_n = \omicron_p(N^\delta)\), \(\delta \in\mathbb R\) とき,
\[
\begin{align}
N^{-\delta}x_n \overset{p}{\to}0
\end{align}
\]
となります.
Theorem 2 を用いると,\(X_N = \omicron_p(a_n)\) が成立するならば \(\mathcal{O}_p(a_n)\) が成立します.
Example 5
\(z\) を確率変数としたとき,\(x_N \equiv \sqrt{N}z\) とていぎします.このとき,以下が成立します
\[
\begin{align}
x_n &= \mathcal{O}_p(N^{1/2})\\
x_n &= \omicron_p(N^{\delta}) \ \ \forall \delta > \frac{1}{2}
\end{align}
\]
\[
\begin{align}
\omicron_p(1) + \omicron_p(1) &= \omicron_p(1) \because{\text{Continuous Mapping Theorem}}\\
\mathcal{O}_p(1) + \omicron_p(1) &= \mathcal{O}_p(1)\\
\mathcal{O}_p(1)\omicron_p(1) &=\omicron_p(1)\\
R_n\times\omicron_p(1) &= \omicron_p(R_n)
\end{align}
\]
Example 6 sum of \(\omicron_p(1)\) not necessarily equals \(\omicron_p(1)\)
\(X_{ni} = \frac{1}{n}\) という確率変数を考えます.
定義より
\[
\operatorname{plim} X_{ni} = 0
\]
つまり,\(X_{ni} = \omicron_p(1)\) です.ここで
\[
Y_n = \frac{1}{n}\sum_{i=1}^nX_{ni}
\]
を考えます.このとき,
\[
\begin{align}
Y_n
&= \frac{1}{n}\sum_{i=1}^nX_{ni}\\
&= \frac{n(n+1)}{2n^{2}}\\
&\to \frac{1}{2}
\end{align}
\]
従って,\(Y_n \neq \omicron_p(1)\) となります.
上記の Example 6 の関連として \(n\) 応じて大きくなる \(M(N)\) 個(例として \(M(N) = \frac{N}{2}\))の \(X_{ni}\) の合計でも考えることができます.\(X_{ni} = 1\) を考えると, \(X_{ni} = \mathcal{O}_p(1)\) は自明ですが
\[
\sum_{i=1}^{M(N)}X_{ni} = \sum_{i=1}^{M(N)}1 = M(N)\to \infty
\]
また,\(X_{ni} = 1/n\) を考えると,\(X_{ni} = \omicron_p(1)\) は自明ですが
\[
\sum_{i=1}^{M(N)}X_{ni} = \sum_{i=1}^{M(N)}\frac{1}{N} = \frac{M(N)}{N}
\]
となり,\(M(N) = \frac{N}{2}\) であるならば \(\frac{1}{2}\) に収束してしまい,\(\sum_{i=1}^{M(N)}X_{ni}\neq \omicron_p(1)\) となってしまいます.
収束レート
\(\mathcal{O}_p(1)\) |
遅い |
確率的に有界だが、ゼロに収束とは限らない |
\(\mathcal{O}_p(1/\log(n))\) |
ちょっと速い |
ゼロに \(\log(n)\) の速さで近づく |
\(\mathcal{O}_p(1/\sqrt(n))\) |
もうちょっと速い |
ゼロに \(\sqrt(n)\) の速さで近づく |
\(\mathcal{O}_p(1/n)\) |
速い |
ゼロに \(n\) の速さで近づく |
\(\mathcal{O}_p(1/n^2)\) |
もっと速い |
\(n^2\) の速さでゼロに近づく |
2つのレートを考えます
\[
\begin{align}
R^{(1)} &= \frac{1}{n^{1/2}}\\
R^{(2)} &= \frac{1}{n^{1/3}}
\end{align}
\]
そして,ある確率変数 \(Y_n = \omicron_p(1)\) とします.ここで,次のように変数を定義します
\[
\begin{align}
X_n^{(1)} &= \frac{1}{n^{1/2}}Y_n = \omicron_p(R^{(1)})\\
X_n^{(2)} &= \frac{1}{n^{1/3}}Y_n = \omicron_p(R^{(2)})
\end{align}
\]
このとき,\(n\to\infty\) における各 \(Y_n\) の値を所与とすると,\(X_n^{(2)}\) の方が \(X_n^{(1)}\) よりも大きくなります. つまり,\(X_n^{(1)}\) の方が確率的にゼロへ速く収束します.
\(d\) 次元確率ベクトル \(\pmb{X}_i\) の密度関数 \(f(\pmb{x})\) を多変量カーネル推定量を用いて推定する場合を考えます.
\[
\hat{f}(\pmb{x}) \frac{1}{|\pmb{H}|}\sum_{i=1}^nK(\pmb{H}^{-1}(\pmb{X}_i - \pmb{x}))
\]
多変量カーネルのAMISE(Asymptotic Mean Integrated Squared Error)は
\[
\operatorname{AMISE}(\hat{f}(\pmb{x})) = \omicron_p(n^{-4/(d+4)})
\]
となりますが,
- \(d=1\) のときは \(n^{-4/5}\) の速さで0に収束
- \(d=2\) のときは \(n^{-2/3}\) の速さで0に収束
- \(d=3\) のときは \(n^{-4/7}\) の速さで0に収束
と \(d\) が大きくなるについて遅くなります.これを次元の呪い(curse of dimensionality)と呼びます.
Example 7
\(X_n \sim N(0, n)\) という確率変数を考えます.変数変換を行うと
\[
\frac{X_n}{\sqrt{n}}\sim N(0, 1)
\]
標準正規分布の性質より \(Z\sim N(0, 1)\) のとき,任意の \(\epsilon > 0\) について \(P(|Z| > M) < \epsilon\) を満たすような \(M\) が存在するので
\[
X_n = \mathcal{O}_p(\sqrt{n})
\]
上記より \(X_n\) はBig OpとLittle Opの関係より \(X_n = \omicron_p(n)\) であることはわかりますが,ちゃんと確認してみたいと思います.
\[
\begin{align}
\frac{X_n}{n}\sim N\left(0, \frac{1}{n}\right)
\end{align}
\]
\(\alpha \sim N\left(0, \frac{1}{n}\right)\) とすると,
\[
\begin{align}
P(|\alpha| > \epsilon)
&= P(\frac{1}{\sqrt{n}}|Z| > \epsilon)\\
&= P(|Z| > \sqrt{n}\epsilon)\\
&\overset{p}{\to}0
\end{align}
\]
従って,\(X_n = \omicron_p(n)\) が示せました.
Appendix: 連続確率分布における中央値の漸近分布
連続確率分布に従う \(\{X_1, \cdots, X_n\} \overset{\mathrm{iid}}{\sim} F\) を考えます.
- CDF: \(F_X(x) = P(X_i \leq x)\)
- inverse CDF: \(F^{-1}_X(t)\)
- pdf: \(f_X(x) = F^\prime_X(x)\)
- Bernoulli r.v.: \(Z_i(x) \equiv I\{X_i \leq x\}\)
\(Z_i\) についてはBernoulli r.v. であるので
\[
\begin{gather}
\mathbb E(Z_i(x)) = \mathbb E\left(I\{X_i\le x\}\right) = P(X_i\le x)=F_X(x)\\
\operatorname{Var}(Z_i(x)) = F_X(x)[1-F_X(x)]
\end{gather}
\]
次に \(Z_i((x))\) のsample meanの変数として \(Y_n(x)\) を以下のように定義します
\[
Y_n(x) = \frac{1}{n}\sum_{i=1}^nZ_i(x) = \hat F_n(x)
\]
このとき,
\[
\begin{align}
\mathbb E[Y_n(x)] &= F_X(x)\\
\operatorname{Var}(Y_n(x)) &= \frac{1}{n}F_X(x)[1-F_X(x)]
\end{align}
\]
ここで,CLTを用いると
\[
\begin{align}
\sqrt n\Big(Y_n(x) - F_X(x)\Big)
&= \sqrt n\Big(\hat F_X(x) - F_X(x)\Big)\\
&\overset{d}{\rightarrow} N\left(0,F_X(x)[1-F_X(x)]\right)
\end{align}
\]
\(F^{-1}_X(\cdot)\) という変数変換とDelta methodを組み合わせると
\[
\sqrt n\Big(F^{-1}_X(\hat F_n(x)) - F^{-1}_X(F_X(x))\Big) \overset{d}{\rightarrow} N\left(0,\frac {F_X(x)[1-F_X(x)]}{\left[f_x\left(F^{-1}_X(F_X(x))\right)\right]^2} \right)
\]
true median \(x = m\) で評価すると
\[
\sqrt n\Big(F^{-1}_X(\hat F_n(m)) - m\Big) \overset{d}{\rightarrow} N\left(0,\frac {1}{\left[2f_x(m)\right]^2} \right)
\]
\(F^{-1}_X(\hat F_n(m))\) は sample median \(\hat m\) に収束するので
\[
\sqrt n\Big(\hat m - m\Big)\overset{d}{\rightarrow} N\left(0,\frac {1}{\left[2f_x(m)\right]^2} \right)
\]
正規分布 \(X_i\sim N(0, \sigma^2)\) の場合を考えると
\[
\sqrt n\Big(\hat m - m\Big)\overset{d}{\rightarrow} N\left(0,\frac {\pi\sigma^2}{2} \right)
\]