P-valueの定義
Definition 1 P value
データにばらつきがある場合,ばらつきだけの原因で評価指標が観測された以上の大きな値を取る確率
P値はNHSTの文脈で用いられる指標です.統計的文脈に則した定義を与えるとすると,
\(H_o: \theta \in \Theta_0\) vs \(H_o: \theta \notin \Theta_0\) なるNHSTにおいて,棄却域が
\[ R = \{\pmb x | W(\pmb x) > c\} \]
で与えられる検定を考えます.このとき
\[ p(\pmb x) = \sup_{\theta \in \Theta_0} P_\theta (W(\pmb X) \geq W(\pmb x)) \]
をP値もしくは有意確率といいます.
Theorem 1 Type I エラーのバウンド
すべての \(\theta \in \Theta_0\) とすべての \(\alpha \in (0, 1)\) について
\[ P_\theta(p(\pmb X) \leq \alpha) \leq \alpha \]
が成り立つ.
Example 1
\(X_1, \cdots. X_n \overset{\mathrm{iid}}{\sim} N(\mu, \sigma^2_0)\) とし,\(\sigma^2_0\) は既知であるとする.
- \(H_0: \mu = \mu_0\)
- \(H_1: \mu =\neq \mu_0\)
となる両側検定については,検定統計量は
\[ W(\bar X) = \sqrt{n}|\bar X - \mu_0|/\sigma_0 \]
となり,有意水準 \(\alpha\) について,対応する棄却域は
\[ R = \{\bar x | W(\bar x) > z_{\alpha/2}\} \]
このとき,\(Z = \sqrt{n}(\bar X - \mu_0)/\sigma_0\) とおくと,\(W(\bar X) = |Z|\) になります.また,\(H_0\) のもとで \(Z \sim N(0, 1)\) であるので
\[ \begin{align} p(\bar x) &= P_{\mu_0}(W(\bar X) \geq W(\bar x))\\ &= P(|Z| \geq \sqrt{n}|\bar x - \mu|/\sigma_0) \end{align} \]
\(\bar x \in R\) のときは
\[ \begin{align} p(\bar x) &= P(|Z| \geq \sqrt{n}|\bar x - \mu_0|/\sigma_0)\\ &\leq P(|Z| \geq z_{\alpha/2}) = \alpha \end{align} \]
したがって,定理 Theorem 1 より
\[ P_{\mu_0}(p(\bar X) \leq \alpha) = \alpha \]
となります.仮にデータを観測して \(p(\bar x) < 0.01\) となるとき.\(H_0\) のもとで,P値が0.01より小さくなる確率は 0.01 より小さいことがわかります.
統計的判定とドメイン領域判定
医薬品の臨床試験においては、\(\text{p-value}<\alpha\) のとき「統計的に有意である」と判定し,帰無仮説(処置効果が存在しない)を棄却する,というプロトコルが用いられます.
しかし,この判定はあくまで統計的判定であり,医学的に意味のある処置効果が存在することを直接示すものではないです.P値はあくまで,
- データにばらつきがある場合,ばらつきだけの原因で評価指標が観測された以上の大きな値を取る確率
を表す量であり,
\[ P_\theta(p(\pmb X) \leq \alpha) \leq \alpha \, \ (\theta \in \Theta_0) \]
を用いたNeyman-Pearson流の意思決定フレームワークにおけるType I Error制御にすぎません.「医薬品の効果があった」という医学的判定とは異なります. 医学的判定において重要なのは,
- 効果量の大きさが臨床的に意味のある水準か
- 副作用や安全性とのバランスは妥当か
- 除外すべき患者がデータに含まれていないか?
といったP-valueの枠外の観点と照らし合わせて,結果を解釈して意思決定を行うことです.
統計的判定が得られなければ,医学的判断の対象にはなりえない,といったプロトコルを事前に作成して統計的判定の指標としてP値を用いるのはよいですが, P値そのものは医学的有効性や臨床的価値の判断とは切り分けて解釈されるべきです.