Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「機械学習と因果推論」入門 ② 回帰分析から因果分析へ
Search
MasaKat0
April 06, 2026
Education
570
0
Share
「機械学習と因果推論」入門 ② 回帰分析から因果分析へ
因果推論に関する講義資料(作成途中)
全5回
① 因果推論とは
②回帰分析から因果分析へ
③漸近効率な推定量と二重機械学習
④さまざまな処置効果の推定方法
⑤ 因果効果推定の一般化
MasaKat0
April 06, 2026
More Decks by MasaKat0
See All by MasaKat0
「機械学習と因果推論」入門 ③ 漸近効率な推定量と二重機械学習
masakat0
0
500
「機械学習と因果推論」入門 ④ 処置効果のさまざまな推定方法
masakat0
0
34
「機械学習と因果推論」入門 ⑤ 因果効果推定の一般化
masakat0
0
44
「機械学習と因果推論」入門① 因果効果とは
masakat0
0
930
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
240
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
230
財務諸表監査のための逐次検定
masakat0
1
300
能動適応的実験計画
masakat0
2
1.3k
Minimax and Bayes Optimal Best-arm Identification: Adaptive Experimental Design for Treatment Choice
masakat0
0
230
Other Decks in Education
See All in Education
環境・社会理工学院(建築学系)大学院説明会 2026|東京科学大学(Science Tokyo)
sciencetokyo
PRO
0
1.5k
高校数学とJulia言語
shimizudan
0
150
Analysis and Validation - Lecture 4 - Information Visualisation (4019538FNR)
signer
PRO
0
2.6k
Gitの仕組みと用語 / 01-b-term
kaityo256
PRO
0
310
✅ レポート採点基準 / How Your Reports Are Assessed
yasslab
PRO
0
320
Why the humanities may be your best career bet
figarospeech
0
160
教育現場から見た Ruby on Rails
yasslab
PRO
0
120
LinkedIn
matleenalaakso
0
4.1k
SSH_handshake_easy_explain
kenbo
0
970
Introduction - Lecture 1 - Information Visualisation (4019538FNR)
signer
PRO
0
5.4k
Railsチュートリアル × 反転学習の事例紹介
yasslab
PRO
3
180k
アントレプレナーシップ教育機構 概要
sciencetokyo
PRO
0
2.1k
Featured
See All Featured
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
210
[SF Ruby Conf 2025] Rails X
palkan
2
960
The SEO identity crisis: Don't let AI make you average
varn
0
440
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
120
We Are The Robots
honzajavorek
0
210
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Bash Introduction
62gerente
615
210k
Rails Girls Zürich Keynote
gr2m
96
14k
エンジニアに許された特別な時間の終わり
watany
106
240k
Leading Effective Engineering Teams in the AI Era
addyosmani
9
1.9k
Evolving SEO for Evolving Search Engines
ryanjones
0
180
Transcript
1 「機械学習と因果推論」入門 ② 回帰分析から因果分析へ 加藤真大 大阪公立大学 理研AIP
2 ポイント ◼ 復習 • 因果効果 • ある行動を起こした場合に得られるアウトカム • 「他の要因が等しい」状況での比較
• 様々な定義 • 平均処置効果(ATE)・処置群上のATE(ATT)・限界効果(AME)など ◼ このスライドで扱う内容 • テーマ「回帰分析から因果分析へ」 • ATE の推定に焦点を当てて考える • 線形回帰分析(OLS)を用いて ATE を推定する • 線形回帰モデルを拡張してノンパラメトリック回帰で ATE を推定する • ATE の異質性や外挿の問題を理解する
3 回帰分析と因果分析
4 回帰分析と因果分析 ◼ 回帰分析: 変数𝑋と変数𝑌の間の関係をデータを用いて検証する枠組み • 回帰分析と因果分析・因果推論・因果効果の推定を区別することはできるのか • 一部の回帰分析が、適当な仮定のもとで因果分析として解釈されうるのではないか ◼
一般的な回帰分析の分析対象は相関? ➢ 相関 vs 因果 • 相関と因果は違う • 相関は因果を含むと解釈できる • 回帰分析は相関の分析も因果効果の分析も含む • ただし、数式や分析・実装レベルでは大きな違いは生じない • 仮定の問題であるとも言える • 因果分析の手法を用いたからといって因果効果を推定できるわけではないし、 回帰分析が常に相関を分析しているわけでもない 𝑋 𝑌
5 回帰分析 ◼ 回帰関数(regression function) • 変数 (𝑋, 𝑌) が従う分布を
𝑃 とする • 回帰関数 𝑓𝑃 𝑥 = 𝔼𝑃 [𝑌 ∣ 𝑋 = 𝑥] は、共変量 𝑋 = 𝑥 を与えた場合における 𝑌 の平均 • 分布 𝑃 が変われば回帰関数 𝑓𝑃 𝑥 も変化する • 簡単化のため、以降では 𝑃 を省略して 𝑓(𝑥) と書くことにする ◼ データ生成過程(data-generating process) • 観測値 (𝑋𝑖 , 𝑌𝑖 ) を生成する分布を 𝑃0 とする • この分布は(頻度論的な意味で)真の分布と呼ばれる ◼ 回帰分析 • 典型的には(真の)回帰関数 𝑓0 (𝑥) の推定問題を指す: 𝑓0 𝑥 ≔ 𝔼𝑃0 [𝑌 ∣ 𝑋 = 𝑥] • 例外もある(分位点回帰や分布間回帰など)
6 モデルから考える回帰分析と因果分析 ◼ 二つの処置と潜在アウトカム • 二つの処置1と0を考える • 処置1 : しばしば処置群と呼ばれる
• 処置0 : しばしば対照群と呼ばれる • 潜在アウトカム:それぞれの処置に対応するアウトカム𝑌(1)と𝑌(0)が存在する ◼ 平均処置効果(Average Treatment Effect;ATE) 𝜃0 ATE ≔ 𝔼 𝑌 1 − 𝑌 0 . • ATE = 二つの処置のアウトカムの差分の期待値
7 モデルから考える回帰分析と因果分析 ◼ 観測データ (𝑋, 𝐷, 𝑌) • 𝑋 は共変量
• 処置が割り当てられる個人(ユニットなどとも呼ばれる)の特徴を表す • 𝐷 ∈ {1, 0} は実際に割り当てられた処置 • 𝑌 ∈ ℝ は観測されるアウトカム • 適当な仮定のもとで 𝑌 = 𝐷 𝑌 1 + 1 − 𝐷 𝑌(0) ◼ 共変量 𝑋 処置 𝐷 を regressor として、回帰関数を以下のように表すことにする: 𝑓 𝐷, 𝑋 = 𝔼 𝑌 𝐷, 𝑋 • このとき、ATE はSUTVAと非交絡性の仮定のもとで以下のように書ける: 𝜃0 ATE = 𝔼 𝑌 1 − 𝑌 0 = 𝔼 𝑓 1, 𝑋 − 𝑓 0, 𝑋 • 𝔼 𝑓 1, 𝑋 − 𝑓 0, 𝑋 の期待値は 𝑋 に対して取られている ✓ ATE = 二つの処置のアウトカムの差分の期待値 = 回帰関数の差分の期待値
8 モデルから考える回帰分析と因果分析 ◼ 線形モデルなどの強い仮定を置けばより簡略化できる • 例:線形回帰モデル 𝑌𝑖 = 𝛼𝐷𝑖 +
𝛽⊤𝑋𝑖 + 𝜖𝑖 • 回帰関数 𝑓 𝐷, 𝑋 に以下の線形モデルを仮定: 𝑓 𝐷, 𝑋 = 𝛼𝐷 + 𝛽⊤𝑋 • ATE を 𝛼 と表している: 𝜃0 ATE = 𝔼 𝑌 1 − 𝑌 0 = 𝔼 𝑓 1, 𝑋 − 𝑓 0, 𝑋 = 𝛼 = 均質なATE を仮定 • 個人ごと(共変量 = 個人属性 𝑋 ごと)に処置効果が変わらない • OLSで推定可能 ◼ 回帰分析と因果分析 • 因果推論は、「仮定の少ない回帰分析」を指すことが多い • 因果推論では、因果の観点で回帰分析で使われる仮定が吟味される
9 線形回帰分析とその拡張 ◼ 線形回帰モデル ①: 𝑌𝑖 = 𝛼𝐷𝑖 + 𝛽⊤𝑋𝑖
+ 𝜖𝑖 例: • 𝑌𝑖 : 一回の来店で使う金銭 • 𝐷𝑖 : クーポンを配布する(𝐷𝑖 = 1)、もしくはクーポンを配布しない(𝐷𝑖 = 0)。 • 𝑋𝑖 : 個人を表す属性(年齢・性別・過去の購入履歴など) • クーポンを配布する場合: 𝑌𝑖 = 𝛼 + 𝛽⊤𝑋𝑖 • クーポンを配布しない場合: 𝑌𝑖 = 𝛽⊤𝑋𝑖 • ATE:𝛼 + 𝛽⊤𝑋𝑖 − 𝛽⊤𝑋𝑖 = 𝛼 • 𝛼 がクーポン配布の効果
10 線形回帰分析とその拡張 ◼ 線形回帰モデル ②: 𝑌𝑖 = 𝐷𝛽1 ⊤𝑋𝑖 +
1 − 𝐷 𝛽0 ⊤𝑋𝑖 + 𝜖𝑖 • 前述の線形回帰モデルの拡張 • 処置 𝐷𝑖 と共変量 𝑋𝑖 の交差項を許容 例: • 𝑌𝑖 : 一回の来店で使う金銭 • 𝐷𝑖 : クーポンを配布する(𝐷𝑖 = 1)、もしくはクーポンを配布しない(𝐷𝑖 = 0)。 • 𝑋𝑖 : 個人を表す属性(年齢・性別・過去の購入履歴など) • クーポンを配布する場合:𝑌𝑖 = 𝛽1 ⊤𝑋𝑖 • クーポンを配布しない場合:𝑌𝑖 = 𝛽0 ⊤𝑋𝑖 • ATE 𝜃0 ATE = 𝔼 𝛽1 − 𝛽0 ⊤𝑋 • 差分:𝔼 𝛽1 − 𝛽0 ⊤𝑋 • 𝛽 1 ⊤𝑋𝑖 − 𝛽 0 ⊤𝑋𝑖 がクーポン配布の効果 • 異質性の存在 • 𝑋 ごとに処置効果が異なる = 個人属性ごとに処置効果が異なる
11 線形回帰分析とその拡張 ◼ 部分線形モデル 𝑌𝑖 = 𝛼𝐷𝑖 + 𝑔(𝑋𝑖 )
+ 𝜖𝑖 • 𝑔(𝑋𝑖 ) には線形性などの特定の関数形を仮定しない • 線形回帰モデル ① (𝑌𝑖 = 𝛼𝐷𝑖 + 𝛽⊤𝑋𝑖 + 𝜖𝑖 ) の拡張 • 𝛽⊤𝑋𝑖 を 未知の関数 𝑔(𝑋𝑖 ) に • 処置 𝐷𝑖 と共変量 𝑋𝑖 の交差項は許容しない 例: • 𝑌𝑖 : 一回の来店で使う金銭 • 𝐷𝑖 : クーポンを配布する(𝐷𝑖 = 1)、もしくはクーポンを配布しない(𝐷𝑖 = 0)。 • 𝑋𝑖 : 個人を表す属性(年齢・性別・過去の購入履歴など) • クーポンを配布する場合: 𝑌𝑖 = 𝛼 + 𝑔(𝑋𝑖 ) • クーポンを配布しない場合: 𝑌𝑖 = 𝑔(𝑋𝑖 ) • ATE: 𝛼 + 𝑔 𝑋𝑖 − 𝑔 𝑋𝑖 = 𝛼 • 𝛼 がクーポン配布の効果
12 線形回帰分析とその拡張 ◼ ノンパラメトリックモデル 𝑌𝑖 = 𝑓 𝐷𝑖 , 𝑋𝑖
+ 𝜖𝑖 • 𝑓 𝐷𝑖 , 𝑋𝑖 には線形性などの特定の関数形を仮定しない 例: • 𝑌𝑖 : 一回の来店で使う金銭 • 𝐷𝑖 : クーポンを配布する(𝐷𝑖 = 1)、もしくはクーポンを配布しない(𝐷𝑖 = 0)。 • 𝑋𝑖 : 個人を表す属性(年齢・性別・過去の購入履歴など) • クーポンを配布する場合: 𝑌𝑖 = 𝑓 (1 , 𝑋𝑖 ) • クーポンを配布しない場合: 𝑌𝑖 = 𝑓(0, 𝑋𝑖 ) • ATE 𝜃0 ATE = 𝔼 𝑓 (1 , 𝑋𝑖 ) − 𝑓(0, 𝑋𝑖 )
13 回帰分析から因果分析へ ◼ 回帰関数:𝑓 𝑑, 𝑥 ≔ 𝔼 𝑌 𝐷
= 𝑑, 𝑋 = 𝑥 ◼ 回帰関数の差分の期待値 𝜃0 ATE = 𝔼 𝑓 1, 𝑋 − 𝑓 0, 𝑋 • SUTVA + 無交絡性のもとで、 𝜃0 ATE = 𝔼 𝑓 1, 𝑋 − 𝑓 0, 𝑋 例 • 線形回帰モデル① 𝑓 𝐷, 𝑋 = 𝛼𝐷 + 𝛽⊤𝑋 • ATE 𝜃0 ATE = 𝛼 • 線形回帰モデル② 𝑓 𝐷, 𝑋 = 𝛽1 ⊤𝐷𝑋 + 𝛽0 ⊤ 1 − 𝐷 𝑋 • ATE 𝜃0 ATE = 𝔼 𝛽1 − 𝛽0 ⊤𝑋 • 部分線形回帰モデル 𝑓 𝐷, 𝑋 = 𝛼𝐷 + 𝑔(𝑋) • ATE 𝜃0 ATE = 𝛼 • ノンパラメトリックモデル • ATE 𝜃0 ATE = 𝔼 𝑓 1, 𝑋 − 𝑓 0, 𝑋
14 仮定の違いと効率性 ◼ モデルを細かく特定できている方が推定精度は向上しやすい • 線形回帰モデルを仮定し、それが正しいのであれば、OLSが一番良い • ただし、仮定が外れることに対して脆弱 • 線形回帰モデルはかなり「単純なモデル」を仮定している
◼ モデルの仮定が少なくなるほど • 長所: 回帰関数の推定を誤ることが少なくなる • 短所: 推定が難しくなる(より多くのデータを必要とするようになる) ◼ 加えて、推定する回帰関数やそのモデルの複雑さが増すほど、因果パラメータの推定に 関する理想的な性質の保証が難しくなる • Donsker条件と呼ばれる性質と収束レートに関する条件が必要とされる • Donsker条件の代わりにサンプル分割(交差適合)を用いても良い