初心者からのリサーチデザイン

実証分析プロジェクトの方法論 1/N

公開日: 2022-04-01
更新日: 2022-06-20

Table of Contents

はじめに

適切な(実証研究)リサーチデザインは以下の構成要素がwell-definedな分析計画のことを指します:

  1. 適切な研究課題
  2. 解き明かしたい事象を説明する理論モデル
  3. 検証仮説はなにか?
  4. データ
  5. 推論モデル

このノートでは,これら構成要素の明確化のための指針を以下まとめます.

リサーチデザインドキュメントの完成図イメージ

component 説明
Working title 分野によって色々書き方はあるが、Compund Construction(体言止め + interogative statement)を推奨
Research context and importance of the proposed research Business Issue
As-Is
To-Be
Gap between As-Is and To-Be
researchがどのようにGapを埋めるのか
researchの意義
Research aims Research questionsとouput imageを書く
Conceptual/Theoretical Framework 問題の定式化、どこを解き明かしたいのかを明確化する
どのようにして問題を解くのかを述べる(Concept), 必要ならばTheoretical Frameworkも述べる
Methodology データ分析方法で統計学の手法を使うなら、統計学のどの分析方法を用いるのか、を説明する
Data どのようなデータが必要かを述べる
Actions 作業工程の関係を述べる
体制 必要ならば作業分担をどのように実施するか述べる
Timetable スケジュール概要

REMARKS

  • リサーチデザインドキュメントは, stand alone documentとして成立しなくてはならない

リサーチの目的

リサーチ, リサーチデザイン, 知識の定義

リサーチ 科学的知識取得を目的に実施される活動
リサーチデザイン リサーチのための行動計画書
科学的知識 「研究対象が何であるかについて事実を述べ, その説明としてその事実がなぜ生じるか, あるいは生じたかを原因と結果の関係から明らかにする」もの

リサーチがリサーチとして成り立つための FAQ

  • どのような規則的な事実について注目しているのか?
  • その事実を説明する仮説・推論はなにか?
  • 仮説 & 推論のうち何がデータによって示せるのか?

リサーチと科学的貢献

アカデミアでは,既存知識に照らして新らしい知識を提供するリサーチがユニークな研究として評価されます. Business Issueの分析では、自分がこれからやろうとしている分析が問題解決に寄与するならば評価されます.

どちらにしても,既存文献の知識は必要不可欠です. その知識がなければ,手元のリサーチがユニークであるのか/問題解決に寄与するのかどうか位置づけができません. 従って,研究課題の特定後の最初のステップは先行研究調査となります.

なおアカデミアの研究における「ユニーク」について, なにが具体的な「ユニーク」として評価されるかは多々ありますが一例として,

  • 先行研究で通説となっている重要仮説を反証する
  • 重要だが十分に掘り下げられていない仮説を体系的に明らかにする
  • 意見が割れている先行研究の論争を解決する

社会科学におけるリサーチ

分析対象となる個人や企業などの経済主体が, 与えられた社会環境の中でどのように行動するかをモデル化して分析します. そして, モデルが導き出す経済主体の行動についての予測を, 現実のデータを用いて検証し, データによって反証されない理論仮説を残す, というリサーチアプローチがよく取られます.

近年の実証研究の特徴は, 与えられたデータが経済主体の行動の帰結として生まれてきているというデータ生成過程に注目し, Institutional knowledge と identification strategyを活用してモデルの妥当性の検証や因果メカニズムの発見するということが傾向として見られます.

適切な研究課題の探し方

基本的には「この課題が解けるとなぜ嬉しいのか」という質問に答えられるかどうかにかかってきます. この質問に答えるために分析者が考える必要がある項目例として以下があります:

  • 解きたいResearch Questionはなにか?
  • そのResearch Questionはなぜ重要か? (Why important)
  • 現実にどのような問題や出来事が発生しているのか?Research Questionはそれらとどのように関連しているのか?
  • Research Questionを解くことでどのようなActionにつながるのか?
  • すでに解かれている課題ではないのか?
  • Research Questionを解くための基本方針はなにか?

最後の項目の「Research Questionを解くための基本方針はなにか?」をこの段階で考える理由は,「解けない問題を定義しても時間の無駄」であり,そのようなものは研究課題として選択すべきではないからです.

実証論文の構成要素

  • 分析計画について
    • Question:答えられるなにか
    • Motivation(why important):Questionはなぜ重要か?についての少なくとも1つの理由
    • Background: QuestioとMotivationを理解可能にするための必要十分な情報
    • Method&Data: 何を使ってどう答えるか?
  • 分析結果の解釈について
    • Novelty: やったことのうち先行研究と違う点(事実ベース)
    • Contribution: Novelなてんについてそれが重要であることの理由
    • policy implication: 分析結果が意思決定をどう変えるか?なにができるようになったか?

リサーチデザインにおける理論の選択

理論とは,研究課題に照らして,分析単位の行動パターンを説明する記述のことです. そのため,理論の選択の際には,

  • リサーチにおける分析単位はなにか?
  • 分析単位のどのような行動パターンを説明したいのか?

を事前に考える必要があります. 適切な理論を見つけることができた場合,research questionと照らし合わせ,理論に基づいたtestable predictionの言語化をします.

適切なモデルの選択によって得られるメリットをまとめると以下です:

  • 分析対象となる行動パターンの定式化
  • 分析結果の解釈指針
  • Dataによって検証する検証仮説の定式化

データの収集

データ収集のデザインに際しては次の項目を確認する必要があります:

  • 母集団はなにか?
  • サンプルはどのように抽出するのか?
  • 観察単位(a unit of observation)はなにか?
    • Entityは?
    • Data期間は?

データにおける分析単位の要件

実証研究における分析用途のデータにおいて,その分析単位は母集団の代表的標本である必要があります. 母集団とは,分析者が示したい命題の対象集団のことです. データにおける分析単位の理想は,母集団からのランダムサンプリングですが,それが叶わない場合は,Institutional backgroundにて手元の分析データが母集団をどのように代表しているかの説明が必要となります.

データの質の管理

自分以外の分析者が研究内容を理解する,実証結果を再現するという観点から,「データが作られた過程を記録し報告する」ことを遵守する必要があります.

  • 標本抽出計画:どのように母集団から標本を抽出したのか?
  • 標本数
  • データ取得時点
  • 分析データ加工手続き

以上の項目をドキュメントに落とし込む習慣を身につけることは有用です. また,データに属する変数(属性空間, attribute space)の関係性の言語化も推奨されます. attribute spaceの言語化にあたって,単にデータを説明するだけでなく,変数関連図(attributeをノードとするDAG)を記述することで,自分が考えている仮説や理論から導き出される変数の関係性を可視化することで,institutional backgroundの説明がより「readable」になります.

分析単位の行為の記述

分析データを準備する際に,過去の分析対象の行為をテーブルデータとして格納する作業が発生するケースは多く見られます. その際のレコード記録のための基本文法の1つとして以下の文法があります:

1
X Prfm A, O, Y, P, t1, t2, g
  • X: 行為主体
  • A: 行為種類(例:クーポン発行など)
  • O: 行為対象(例:発行種類クーポンなど)
  • Y: 行為相手
  • P: 行為の場所
  • t1: 行為のタイムスタンプ
  • t2: 行為の期間
  • g: 行為目標

データの種類:Experimental data & Observational data

大雑把に言うと,データはExperimental data と Observational dataの2つに分類されます.

Experimental data 分析者がデータ生成プロセスに介入し,その結果得た観測値の集合を分析データとしてまとめたデータのこと
Observational data 分析者がデータ生成プロセスに介入することなく,確率変数の実現値を事後的に記録し分析データとしてまとめたデータのこと

因果関係のコンセプト

ビジネスの場面では何らかのアクションがKGI/KPIに与えた影響のことを効果と考えますが, その効果を分析フレームワークにどのように落とし込むかを考えます.

Potential Outcome Framework

「とあるEC小売会社において,とある期間にクーポンをそのEC顧客に付与した場合, 今年度のEC顧客あたり購買率は上昇するか?」という問題を解きたいとします. 単純化のため, 付与できるクーポンの種類はお買い上げ金額500円割引クーポンの一種類だけとします.

このクーポンを付与による今年度EC顧客あたりの購買率への因果効果(クーポン付与による処置効果)を記述する方法として,Potential Outcome Framework(the Rubin Causal Model, PO approach)があります.

PO approachは3つの要素から構成されます:

  1. 各分析ユニット, $i$, に対して,クーポンの付与ステータスに応じて値が定まる確率変数, $D_i={0,1}$ が定義される
  2. 各分析ユニットに対して,クーポンが付与された/されなかった時のPotential Outcome変数 $(Y_{1i}, Y_{0i})$が定義される
  3. Treatmentステータス,$D_i={0,1}$,のアサイメントメカニズムが存在する

Potential Outcome変数がすべての分析にユニットについて両方観測される際は,クーポン付与効果は

\[\tau = \mathbb{E}[Y_{1i} - Y_{0i}]\]

と表現されますが,分析者が観測できるのはあくまでクーポンを付与された時/されなかった時のどちらか一方のみとなります. つまり,iについてのobserved outcomeを$Y_i$としたとき,

\[\text{observed outcome } Y_i = \begin{cases}Y_{1i} & \text{if } D_i=1\\ Y_{0i} & \text{if } D_i=0\end{cases}\]

このような状況の中,$\tau$をどのように識別するのか?(=直接は観測されないPotential outcomeをどのように推定するのか?, Causal Inference as Missing Data Problem)が実証分析において考える基本的な問題となります. (see 識別の定義(point identification))

SUTVA: Stable Unit Treatment Value Assumption

SUTVAは2つのパートから構成されます:

  1. 各 unit of observationについて,treatmentは1種類のみ (ただし,この仮定はmultivaluedやcontinuous treatmentへ緩めることができる)
  2. 各 unit of observationについてのTreatment effectは,他のunit of observationのtreatment status/effectと独立, $\tau_i \perp (\tau_j, D_j) \ \ \forall j \neq i$

The Assignment Mechanism

The Assignment Mechanismはどのunit of observationがどのtreatment statusを付与されるかを決定するプロセスのことです.

観測できるPOはTreatment variableに依存するという状況のもとで,Treatment variableの値がどのようにユニットごとで選択されたかは因果パラメーターの識別を考える上で重要なこととなります. Assignment Mechanismを考えることなくTreated/Controlled間で単純比較してしまうと以下のような Selection bias が発生するリスクがあります:

\(\begin{align*} \mathbb{E}[Y_i|D_i=1] - \mathbb{E}[Y_i|D_i=0] =& \mathbb{E}[Y_{1i} - Y_{0i}|D_i=1] \\ &+ \mathbb{E}[Y_{0i}|D_i=1] - \mathbb{E}[Y_{0i}|D_i=0] \end{align*}\)

このように単純比較ではATT項とSelection bias項に分解することができ,Assignment mechanismがPotential outcomeに依存しているケースではバイアスを含んだパラメータを推定してしまうことなります.

この問題の解決方法として,Conditional Independence Assumptionを満たしているかどうかの確認があります.

Case 1: RCT

\(\begin{align*} D_i \perp (Y_{i0}, Y_{i1}) \end{align*}\)

このとき,omitted variable biasは存在しません. ATE = target parameter $\theta$の推定値を$\hat\theta$とすると

\(\begin{align*} \hat\theta &= \frac{1}{N_t}\sum_{i:D_i=1}Y_i - \frac{1}{N_c}\sum_{i:D_i=0}Y_i\\ Var(\hat\theta) &= \frac{1}{N_t(N_t-1)}\sum_{i:D_i=1}(Y_i - \bar Y_t)^2 - \frac{1}{N_c(N_c-1)}\sum_{i:D_i=0}(Y_i-\bar Y_c)^2 \end{align*}\)

  • ただし,regressionを実行時は不均一分散の設定はわすれないこと
  • regress y d, robust

Case 2: Conditional Independence Assumption

RCT下で得られる $D_i \perp (Y_{i0}, Y_{i1})$という仮定はRCTが実施できない環境下では満たすことの難しい仮定となりますが,この仮定はunconfoundednessの仮定のみをケースまで緩めることができます.

unconfoundednessの仮定を言葉で説明すると,treatment valueは,pre-treatment変数によって依存しているが,それらをコントロールするとtreatment valueはpotential outcomeと独立しているような状況のことを意味します. 数式的に表現すると,

\[D_i|X_i \perp (Y_{i0}, Y_{i1})\]

この仮定が満たされる場合,target parameterは以下のような形で識別できます:

\(\begin{align*} \tau = \mathbb{E}[Y_{i1} - Y_{i0}] = \mathbb{E}[\mathbb{E}[Y_{i}|D_i=1,X_i] - \mathbb{E}[Y_{i}|D_i=0,X_i]] \end{align*}\)

因果メカニズム

因果メカニズムとは,原因が結果に影響を及ぼす過程のことです. 因果効果を表すパラメータを識別する際に,単に推定するだけではなくRobustness checkなどの作業を通して,原因と結果の間に介在する一連のメカニズムの分析・解釈を実証研究で付与することは命題の説得力を増す上で重要です.

ただし,因果効果の識別・因果メカニズムの解釈の際に,その理論モデル, 推定モデル, 推定したパラメータの妥当範囲は,母集団と分析期間の制約を受けることを忘れてはなりません.

因果分析の進め方

  1. 因果の実践的な定義(理論的な変数の定義)
  2. 因果関係を記述したDAGモデルの定義
  3. 因果モデルのノードと観測可能な変数の対応表の作成
  4. ノード間(または全体の)ターゲットパラメーターの推定
  5. 推定値に基づき因果関係をモデルと照らし合わせて解釈する

因果グラフィカルモデル

原因と結果の間に介在する一連のメカニズムを記述する方法としてグラフィカル因果モデル(DAGモデル)があります. DAGモデルの構成要素はa

  • 外生変数集合: U
  • 内生変数集合: V
  • 変数間同時分布関数: f

によって一般的には説明されます. DAGモデルは,分析者が仮説としてもっている因果メカニズムの記述を可能にするだけでなく,データの生成メカニズムの理解も記述することができるというメリットがあります.

例: Monty Hall Problem

Uを外生変数(Monty Hall問題ではunobservableな変数)とし,Xをプレイヤーが選択するドア,Yを正解のドア,Zを司会者が当てるドアとすると

  • $U = {U_X, U_Y, U_Z}$
  • $V = {X, Y, Z}$
  • $X = U_X$
  • $Y = U_Y$
  • $Z = f(X, Y) + U_Z$
graph TB;
  U_X --> X;
  U_Y --> Y;
  U_Z --> Z;
  X   --> Z;
  Y   --> Z;

REMARKS

  • ただし,DAGモデルはあくまで変数感の関係について他者とコミュニケーションするために用いるツールとして使うべき
  • または,robustness checkとして確認すべき変数の候補のリストアップとして用いるべき
  • 基本的には,データ生成メカニズムの記述は社会科学の領域では不可能

Action Plan提言への姿勢

企業におけるリサーチはリサーチするために実行するものではなく,現実の意思決定を改善するために実行するものです.しかし,適切なリサーチデザインを用いて得られた分析結果からのAction Plan提言と実際の企業の意思決定プロセスには相当の乖離があります.

分析者が分析対象としていない問題が意思決定ポイントである場合や,そもそも分析結果を適切なコミュニケーションプロトコルで意思決定者に伝えられてないという要因があります. このような問題は現実の場面場面で要因が異なるので一概に解決策は示すことはできないですが,自分が日々大事にしたいと思っている方針を以下箇条書きで列挙します.

  1. リサーチで取り扱う内容はあくまで意思決定プロセスの論点の一部分にすぎない限界を認識する
  2. 過去の意思決定を変更の提言をするときは,かつての意思決定の非を問うのではなく,環境の変化に原因をもとめるなど過去現在の意思決定者をリスペクトする
  3. 意思決定の場で使われるコミュニケーション様式を守る(例: 分析結果をPLの数字に変換する)

Appendix

識別の定義(point identification)

母集団を特徴づける $\theta\in\Theta$というパラメーターに興味があるとします. このとき,観測されるデータの分布が既知ならば,$\theta$の値が一意に定まることを識別といいます. また,パラメータ空間 $\Theta$ を制限することは,回帰係数や誤差項の分布に対する様々な制約を課すことに対応します.

定義: ターゲットパラメーター

多くの場合,分析者はパラメータ $\theta$ のすべてに興味があるわけでなく,その一部にのみ興味があります.そこで,$\Theta$ を定義域とするある写像 $\Psi$ が存在し,$\psi=\Psi(\theta)$ に興味があるという状況を考えます.興味の対象であるパラメータ$\psi=\Psi(\theta)$のことをターゲットパラメーターと呼びます.

定義: 観測的同値

パラメーター$\theta$によって特徴づけられる観測変数 $W$ の分布を$P_\theta$としたとき,以下のような形で分布の集合を定義します:

\[\Gamma (\psi,\Theta) \equiv \{ P_{\theta} : \theta \in \Theta, \ \Psi(\theta) = \psi \}\]

$\Gamma (\psi,\Theta)$はターゲットパラメーターの値が$\psi$であることと整合的な $W$ の分布の集合と解釈することできます. このとき,ある $\psi, \ \psi’ \in \Psi(\Theta)$ に対して,

\[\Gamma (\psi,\Theta) \cap \Gamma (\psi',\Theta) \neq \varnothing\]

となるとき,$\psi, \ \psi’$は観測的同値(observationally equivalent)であると言います.つまり,ターゲットパラメータの値は違うにも関わらず,観測される変数の分布は同じになってしまうパラメータのペア $\theta$ と $\theta’$ が存在するということです(=観測される変数の分布以外の情報をデータから知ることはできないので2つのターゲットパラメータのどちらが正しいかデータから判別できないことを意味します).

定義:識別

任意のターゲットパラメータ $\psi, \ \psi’ \in \Psi(\Theta)$ に対して,

\[\psi \neq \psi' \ \ \Rightarrow \ \ \Gamma (\psi,\Theta) \cap \Gamma (\psi',\Theta) = \varnothing\]

が成り立つなら,ターゲットパラメータは識別される(identified)と言います.ターゲットパラメータが識別できないということは,$W$ の分布が既知であるという理想的な状況でもターゲットパラメータを一意に復元できないということを意味します(=ターゲットパラメータが識別できない場合,どのような推定量を考えてもターゲットパラメータを一致推定することができない).

なお,識別の議論では観測できる変数 $W$ の分布が既知であるという状況を考えていますが,これは,i.i.d. サンプル ${W_i}_{i=1}^n$ があれば,経験分布を用いて $W$ の分布を一致推定することができるからです.

参考: Inductive vs. Deductive Research Approach

ここで紹介するリサーチデザインは主にdeductive approach(演繹的推論)に比重を置いたものを紹介しています.

上の図のように,Inductive approach(帰納的推論)とdeductive approach(演繹的推論)の大きな違いは,前者は理論を構築することを目的とし,後者は既存の理論を検証することを目的とする点にあります.

Inductive approachの流れ

  1. Observation
    • 格安航空会社の飛行機が遅れている
    • 犬Aと犬Bにノミがいる
    • ゾウは水に依存して生きている
  2. Observe a pattern
    • 格安航空会社の別の20便が遅延している
    • 観察されたすべての犬はノミを持っている
    • 観察されたすべての動物は,水に依存している
  3. Develop a theory or general (preliminary) conclusion
    • 格安航空会社には常に遅延がある
    • すべての犬にはノミがいる
    • すべての生物は,水に依存して存在する

Deductive approachの流れ

  1. Start with an existing theory (and create a problem statement)
    • 格安航空会社には必ず遅延がある
    • すべての犬にはノミがいる
    • すべての生物は,水に依存して存在する
  2. Formulate a falsifiable hypothesis based on existing theory
    • もし乗客が格安航空会社を利用するならば,必ず遅延が発生する。
    • 私の住んでいるアパートのすべての犬はノミを持っている。
    • すべての陸生哺乳類は水に依存している
  3. Collect data to test the hypothesis
    • 格安航空会社のフライトデータを収集する
    • マンションにいるすべての犬にノミがいるかどうか検査する
    • すべての陸生哺乳類が水に依存しているかどうかを調査する。
  4. Analyze and test the data
    • 格安航空会社の100便のうち5便は遅延がない。
    • 20匹中10匹の犬にノミがいなかった。
    • すべての陸生哺乳類は水に依存している
  5. Decide whether you can reject the null hypothesis
    • 格安航空会社の100便のうち5便は遅延していない=帰無仮説を棄却する
    • 20匹中10匹の犬にはノミがいなかった = 帰無仮説を棄却する
    • すべての陸生哺乳類の種は水に依存している = 仮説を支持する

参考資料

関連Blogポスト

オンラインマテリアル

書籍



Share Buttons
Share on:

Feature Tags
Leave a Comment
(注意:GitHub Accountが必要となります)