統計学入門
▶ 統計学入門 のスコープ
- 竹村彰通 (2020) をベースに,統計推測法に必要な基礎知識について勉強します
- 日々のデータサイエンス分析のベースとなるような統計基礎概念や定義が勉強対象になりますが,これらについて数学的な定義とともにわかりやすい言語化ができるようになることを目的にしています
▶ 記述統計と統計的推測
記述統計(descriptive statistics)
- 調査や実験で得られたデータを整理して,その解釈を助けるような統計的分析のこと
統計的推測(statistical inference)
- 確率的な変動を多く含むデータに対して,そのDGP(= Data generating process)に何かしらの仮定を想定し,データから確率モデルの推定や検定を行う分析のこと
「伏せられたトランプカードを透視することでスートを当てることができる!」という人がいたとします. この能力を試してみたところ52枚のカードの内,40枚を当てることができたというデータが得られました. この,40枚当てることができたというデータについて確率論的意味を判断をするというのが統計的推測です.
このように統計的推測とは確率モデルを想定してデータを解釈/判断する分析なので,確率論を中心とする数学的表現を用いたモデルの定式化 (=ランダムネスの法則を扱う数学理論)が必要となります.加えて,
- 想定した確率モデルが正しそうか?
- 与えられたデータと矛盾しないか?
- 乖離がある場合,想定したモデルから導かれる結論はどの程度妥当すると言えるのだろうか?
という分析上の判断も必要となります.そのため,統計的推測はデータ分析初心者にとっては敷居が高い手法となりますが, 一旦モデル化や仮定の妥当性についての説明がうまく行くと,手元に実際にあるデータの背後にあるメカニズムに基づいて推測が行えるようになります. 例えば,実際に観測できないPotential Outcomesの分布についての推定や将来の予測などがあります.
このように統計的推測とは,使いこなすのは大変ですが,使えるようになるととても強力なツールです.このノートを通じて,統計的推測の基礎やいくつかの応用分野の分析を見ながらマスターしたいなと思っています.
▶ 測定の尺度
種類 | measurement | 説明 |
---|---|---|
カテゴリカルデータ | 名義尺度(nominal scale) | ある対象が他と同一か,異なるかを表す測定 例: 性別, 血液型 |
カテゴリカルデータ | 順序尺度(ordinal scale) | 大小/優劣関係を表す測定 例: 4段階評価の健康状態 |
量的データ | 間隔尺度(interval scale) | 0が相対的な意味をもつ指標 例: 気温,知能指数,標高 |
量的データ | 比例尺度(ratio scale) | 0が絶対的な意味を持つ指標 例: 身長,金額,時間の経過,絶対温度 |