Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「機械学習と因果推論」入門 ② 回帰分析から因果分析へ

「機械学習と因果推論」入門 ② 回帰分析から因果分析へ

因果推論に関する講義資料(作成途中)
全5回 
① 因果推論とは
②回帰分析から因果分析へ
③漸近効率な推定量と二重機械学習
④さまざまな処置効果の推定方法
⑤ 因果効果推定の一般化

Avatar for MasaKat0

MasaKat0

April 06, 2026

More Decks by MasaKat0

Other Decks in Education

Transcript

  1. 2 本講義のポイント ◼ 復習 • 因果効果 • ある行動を起こした場合に得られるアウトカム • 「他の要因が等しい」状況での比較

    • 様々な定義 • 平均処置効果(ATE)・処置群上のATE(ATT)・限界効果(AME)など ◼ 本講義で扱う内容 • テーマ「回帰分析から因果分析へ」 • ATE の推定に焦点を当てて考える • 線形回帰分析(OLS)を用いて ATE を推定する • 線形回帰モデルを拡張してノンパラメトリック回帰で ATE を推定する • ATE の異質性や外挿の問題を理解する
  2. 4 回帰分析と因果分析 ◼ 回帰分析: 変数𝑋と変数𝑌の間の関係をデータを用いて検証する枠組み • 回帰分析と因果分析・因果推論・因果効果の推定を区別することはできるのか • 一部の回帰分析が、適当な仮定のもとで因果分析として解釈されうるのではないか ◼

    一般的な回帰分析の分析対象は相関? ➢ 相関 vs 因果 • 相関と因果は違う • 相関は因果を含むと解釈できる • 回帰分析は相関の分析も因果効果の分析も含む • ただし、数式や分析・実装レベルでは大きな違いは生じない • 仮定の問題であるとも言える • 因果分析の手法を用いたからといって因果効果を推定できるわけではないし、 回帰分析が常に相関を分析しているわけでもない 𝑋 𝑌
  3. 5 回帰分析 ◼ 回帰関数(regression function) • 変数 (𝑋, 𝑌) が従う分布を

    𝑃 とする • 回帰関数 𝑓𝑃 𝑥 = 𝔼𝑃 [𝑌 ∣ 𝑋 = 𝑥] は、共変量 𝑋 = 𝑥 を与えた場合における 𝑌 の平均 • 分布 𝑃 が変われば回帰関数 𝑓𝑃 𝑥 も変化する • 簡単化のため、以降では 𝑃 を省略して 𝑓(𝑥) と書くことにする ◼ データ生成過程(data-generating process) • 観測値 (𝑋𝑖 , 𝑌𝑖 ) を生成する分布を 𝑃0 とする • この分布は(頻度論的な意味で)真の分布と呼ばれる ◼ 回帰分析 • 典型的には(真の)回帰関数 𝑓0 (𝑥) の推定問題を指す: 𝑓0 𝑥 ≔ 𝔼𝑃0 [𝑌 ∣ 𝑋 = 𝑥] • 例外もある(分位点回帰や分布間回帰など)
  4. 6 モデルから考える回帰分析と因果分析 ◼ 二つの処置と潜在アウトカム • 二つの処置1と0を考える • 処置1 : しばしば処置群と呼ばれる

    • 処置0 : しばしば対照群と呼ばれる • 潜在アウトカム:それぞれの処置に対応するアウトカム𝑌(1)と𝑌(0)が存在する ◼ 平均処置効果(Average Treatment Effect;ATE) 𝜃0 ATE ≔ 𝔼 𝑌 1 − 𝑌 0 . • ATE = 二つの処置のアウトカムの差分の期待値
  5. 7 モデルから考える回帰分析と因果分析 ◼ 観測データ (𝑋, 𝐷, 𝑌) • 𝑋 は共変量

    • 処置が割り当てられる個人(ユニットなどとも呼ばれる)の特徴を表す • 𝐷 ∈ {1, 0} は実際に割り当てられた処置 • 𝑌 ∈ ℝ は観測されるアウトカム • 適当な仮定のもとで 𝑌 = 𝐷 𝑌 1 + 1 − 𝐷 𝑌(0) ◼ 共変量 𝑋 処置 𝐷 を regressor として、回帰関数を以下のように表すことにする: 𝑓 𝐷, 𝑋 = 𝔼 𝑌 𝐷, 𝑋 • このとき、ATE はSUTVAと非交絡性の仮定のもとで以下のように書ける: 𝜃0 ATE = 𝔼 𝑌 1 − 𝑌 0 = 𝔼 𝑓 1, 𝑋 − 𝑓 0, 𝑋 • 𝔼 𝑓 1, 𝑋 − 𝑓 0, 𝑋 の期待値は 𝑋 に対して取られている ✓ ATE = 二つの処置のアウトカムの差分の期待値 = 回帰関数の差分の期待値
  6. 8 モデルから考える回帰分析と因果分析 ◼ 線形モデルなどの強い仮定を置けばより簡略化できる • 例: 線形回帰モデル 𝑌𝑖 = 𝛼𝐷𝑖

    + 𝛽⊤𝑋𝑖 + 𝜖𝑖 • 回帰関数 𝑓 𝐷, 𝑋 に以下の線形モデルを仮定: 𝑓 𝐷, 𝑋 = 𝛼𝐷 + 𝛽⊤𝑋 • ATE を 𝛼 と表している: 𝜃0 ATE = 𝔼 𝑌 1 − 𝑌 0 = 𝔼 𝑓 1, 𝑋 − 𝑓 0, 𝑋 = 𝛼 • 均質なATE を仮定 • 個人ごと(共変量 = 個人属性 𝑋 ごとに処置効果が変わることはない) • OLSで推定可能 ◼ 回帰分析と因果分析 • 因果推論は、「仮定の少ない回帰分析」を指すことが多い • 因果推論では、因果の観点で回帰分析で使われる仮定が吟味される
  7. 9 線形回帰分析とその拡張 ◼ 線形回帰モデル ①: 𝑌𝑖 = 𝛼𝐷𝑖 + 𝛽⊤𝑋𝑖

    + 𝜖𝑖  例: • 𝑌𝑖 : 一回の来店で使う金銭 • 𝐷𝑖 : クーポンを配布する(𝐷𝑖 = 1)、もしくはクーポンを配布しない(𝐷𝑖 = 0)。 • 𝑋𝑖 : 個人を表す属性(年齢・性別・過去の購入履歴など) • クーポンを配布する場合: 𝑌𝑖 = 𝛼 + 𝛽⊤𝑋𝑖 • クーポンを配布しない場合: 𝑌𝑖 = 𝛽⊤𝑋𝑖 • ATE:𝛼 + 𝛽⊤𝑋𝑖 − 𝛽⊤𝑋𝑖 = 𝛼 • 𝛼 がクーポン配布の効果
  8. 10 線形回帰分析とその拡張 ◼ 線形回帰モデル ②: 𝑌𝑖 = 𝐷𝛽1 ⊤𝑋𝑖 +

    1 − 𝐷 𝛽0 ⊤𝑋𝑖 + 𝜖𝑖 • 前述の線形回帰モデルの拡張 • 処置 𝐷𝑖 と共変量 𝑋𝑖 の交差項を許容  例: • 𝑌𝑖 : 一回の来店で使う金銭 • 𝐷𝑖 : クーポンを配布する(𝐷𝑖 = 1)、もしくはクーポンを配布しない(𝐷𝑖 = 0)。 • 𝑋𝑖 : 個人を表す属性(年齢・性別・過去の購入履歴など) • クーポンを配布する場合:𝑌𝑖 = 𝛽1 ⊤𝑋𝑖 • クーポンを配布しない場合:𝑌𝑖 = 𝛽0 ⊤𝑋𝑖 • ATE 𝜃0 ATE = 𝔼 𝛽1 − 𝛽0 ⊤𝑋 • 差分:𝔼 𝛽1 − 𝛽0 ⊤𝑋 • 𝛽 1 ⊤𝑋𝑖 − 𝛽 0 ⊤𝑋𝑖 がクーポン配布の効果 • 異質性の存在 • 𝑋 ごとに処置効果が異なる = 個人属性ごとに処置効果が異なる
  9. 11 線形回帰分析とその拡張 ◼ 部分線形モデル 𝑌𝑖 = 𝛼𝐷𝑖 + 𝑔(𝑋𝑖 )

    + 𝜖𝑖 • 𝑔(𝑋𝑖 ) には線形性などの特定の関数形を仮定しない • 線形回帰モデル ① (𝑌𝑖 = 𝛼𝐷𝑖 + 𝛽⊤𝑋𝑖 + 𝜖𝑖 ) の拡張 • 𝛽⊤𝑋𝑖 を 未知の関数 𝑔(𝑋𝑖 ) に • 処置 𝐷𝑖 と共変量 𝑋𝑖 の交差項は許容しない  例: • 𝑌𝑖 : 一回の来店で使う金銭 • 𝐷𝑖 : クーポンを配布する(𝐷𝑖 = 1)、もしくはクーポンを配布しない(𝐷𝑖 = 0)。 • 𝑋𝑖 : 個人を表す属性(年齢・性別・過去の購入履歴など) • クーポンを配布する場合: 𝑌𝑖 = 𝛼 + 𝑔(𝑋𝑖 ) • クーポンを配布しない場合: 𝑌𝑖 = 𝑔(𝑋𝑖 ) • ATE: 𝛼 + 𝑔 𝑋𝑖 − 𝑔 𝑋𝑖 = 𝛼 • 𝛼 がクーポン配布の効果
  10. 12 線形回帰分析とその拡張 ◼ ノンパラメトリックモデル 𝑌𝑖 = 𝑓 𝐷𝑖 , 𝑋𝑖

    + 𝜖𝑖 • 𝑓 𝐷𝑖 , 𝑋𝑖 には線形性などの特定の関数形を仮定しない  例: • 𝑌𝑖 : 一回の来店で使う金銭 • 𝐷𝑖 : クーポンを配布する(𝐷𝑖 = 1)、もしくはクーポンを配布しない(𝐷𝑖 = 0)。 • 𝑋𝑖 : 個人を表す属性(年齢・性別・過去の購入履歴など) • クーポンを配布する場合: 𝑌𝑖 = 𝑓 (1 , 𝑋𝑖 ) • クーポンを配布しない場合: 𝑌𝑖 = 𝑓(0, 𝑋𝑖 ) • ATE 𝜃0 ATE = 𝔼 𝑓 (1 , 𝑋𝑖 ) − 𝑓(0, 𝑋𝑖 )
  11. 13 回帰分析から因果分析へ ◼ 回帰関数:𝑓 𝑑, 𝑥 ≔ 𝔼 𝑌 𝐷

    = 𝑑, 𝑋 = 𝑥 ◼ 回帰関数の差分の期待値 𝜃0 ATE = 𝔼 𝑓 1, 𝑋 − 𝑓 0, 𝑋 • SUTVA + 無交絡性のもとで、 𝜃0 ATE = 𝔼 𝑓 1, 𝑋 − 𝑓 0, 𝑋  例 • 線形回帰モデル① 𝑓 𝐷, 𝑋 = 𝛼𝐷 + 𝛽⊤𝑋 • ATE 𝜃0 ATE = 𝛼 • 線形回帰モデル② 𝑓 𝐷, 𝑋 = 𝛽1 ⊤𝐷𝑋 + 𝛽0 ⊤ 1 − 𝐷 𝑋 • ATE 𝜃0 ATE = 𝔼 𝛽1 − 𝛽0 ⊤𝑋 • 部分線形回帰モデル 𝑓 𝐷, 𝑋 = 𝛼𝐷 + 𝑔(𝑋) • ATE 𝜃0 ATE = 𝛼 • ノンパラメトリックモデル • ATE 𝜃0 ATE = 𝔼 𝑓 1, 𝑋 − 𝑓 0, 𝑋
  12. 14 仮定の違いと効率性 ◼ モデルを細かく特定できている方が推定精度は向上しやすい • 線形回帰モデルを仮定し、それが正しいのであれば、OLSが一番良い • ただし、仮定が外れることに対して脆弱 • 線形回帰モデルはかなり「単純なモデル」を仮定している

    ◼ モデルの仮定が少なくなるほど • 長所: 回帰関数の推定を誤ることが少なくなる • 短所: 推定が難しくなる(より多くのデータを必要とするようになる) ◼ 加えて、推定する回帰関数やそのモデルの複雑さが増すほど、因果パラメータの推定に 関する理想的な性質の保証が難しくなる • Donsker条件と呼ばれる性質と収束レートに関する条件が必要とされる • Donsker条件の代わりにサンプル分割(交差適合)を用いても良い