Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ベイズ的方法に基づく統計的因果推論の基礎

Shunsuke Horii
December 11, 2024

 ベイズ的方法に基づく統計的因果推論の基礎

第81回大阪大学MMSD AI・データ利活用研究会(2024/11/29)発表スライド

Shunsuke Horii

December 11, 2024
Tweet

Other Decks in Research

Transcript

  1. 講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル –

    2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 3
  2. 講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル –

    2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 5
  3. 因果とは • “Causality”の語義:「結果と原因の関係」および「何事にも原因があると する原理」 AI・データ利活用研究会 6 引用:Oxford Dictionaries • 因果推論の問題:「ある行動Aを起こしたときにYに何が起こるか?」

    • 多くの統計学の教科書における因果の取り扱い – 相関と因果の違いに関する注意喚起にとどまるものが多い • 「アイスクリームの消費が多い時期は水死者数も多い」という相関関係は「アイスクリームを食べたこ とが原因で水死者が増えた」という因果関係を意味しない もう一歩先へ
  4. 因果推論問題の例 AI・データ利活用研究会 7 例 • ECサイト(インターネット通販サイト)の一部のユーザーに対して広告メールを送 り,メールを送ったユーザー・送らなかったユーザーそれぞれについてその後のECサ イトでの使用額を調べた.広告メールは効果があるといえるだろうか?また,その 効果はどの程度だろうか? ユーザー

    No. メールの有無 𝑻 使用額 𝒀 1 1 0 2 0 14900 3 1 48200 ⋮ ⋮ ⋮ 𝑛 1 0 広告メールの送付が売上に与える効果 処置変数𝑇が結果変数𝑌に与える効果を 求めたい. 𝑇 = 0:メールなし, 𝑇 = 1:メールあり 𝑇:処置変数 𝑌:結果変数 ※ 安井翔太「効果検証入門」(技術評論社)の例を 一部変更
  5. 因果推論の難しさ AI・データ利活用研究会 8 因果効果(?)のプリミティブな推定方法 1 𝑖: 𝑇𝑖 = 1 ෍

    𝑖:𝑇𝑖=1 𝑌𝑖 − 1 𝑖: 𝑇𝑖 = 0 ෍ 𝑖:𝑇𝑖=0 𝑌𝑖 メールを送った人の 平均使用額 メールを送らなかった人の 平均使用額 メールを送った人の平均使用額:237.86 メールを送らなかった人の平均使用額:54.28 「メールを送ること」の「使用額」への効果(?)は 237.86-54.28=183.58 ?
  6. 因果推論の難しさ AI・データ利活用研究会 9 • 広報メールは顧客の過去の購買履歴データを元に送付するかどうかが決められて いる ユーザー No. メールの 有無

    𝑻 使用額 𝒀 昨年の使用額 𝑿𝟏 最後の購入から の経過月数 𝑿𝟐 1 1 0.0 82800 5 2 0 14900 3000 9 3 1 48200 34700 3 ⋮ ⋮ ⋮ ⋮ 𝑛 1 0.0 51500 1
  7. 因果推論の難しさ AI・データ利活用研究会 11 メールなし グループ メールあり グループ メールを受け 取らなかった 顧客が,メー

    ルを受け取ら なかった場合 の使用額の期 待値 メールを受け取った顧客 が,メールを受け取った 場合の使用額の期待値 プリミティブな推定方法 での推定対象
  8. 因果推論の難しさ AI・データ利活用研究会 12 メールなし グループ メールあり グループ メールを受け 取らなかった 顧客が,メー

    ルを受け取ら なかった場合 の使用額の期 待値 メールを受け 取った顧客が, メールを受け 取らなかった 場合の使用額 の見込額 メールを受け取った顧客 が,メールを受け取った 場合の使用額の期待値 プリミティブな推定方法 での推定対象 本当に推定したい量
  9. 講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル –

    2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 14
  10. Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 15 • 処置変数𝑇𝑖 :0か1の2値をとる • 結果変数𝑌𝑖 • 𝑇𝑖

    の値に応じて,𝑌 𝑖 (0)と𝑌 𝑖 (1)という2つの確率変数の存在を仮定 例 • 広告メールの有無と使用額 ユーザー No. メールの 有無 𝑻 𝒀(𝟎) 𝒀(𝟏) 1 1 0 10000 2 0 15000 20000 ⋮ ⋮ ⋮ ⋮ 𝑛 1 5000 7500 𝑌 𝑖 (0):ユーザー𝑖にメールを送らなかったとき の使用額 𝑌 𝑖 (1):ユーザー𝑖にメールを送ったときの使用額
  11. ユーザー No. メール の有無 𝑻 𝒀(𝟎) 𝒀(𝟏) 𝒀 1 1

    0 10000 10000 2 0 15000 20000 15000 ⋮ ⋮ ⋮ ⋮ ⋮ 𝑛 1 5000 7500 7500 Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 16 • 仮定 (一致性):結果変数𝑌𝑖 は𝑇𝑖 = 0のとき𝑌 𝑖 (0)と等しく,𝑇𝑖 = 1のとき𝑌 𝑖 (1)と等しい ⇒ 𝑌𝑖 = 𝑇𝑖 𝑌 𝑖 (1) + (1 − 𝑇𝑖 )𝑌 𝑖 (0)と表せる 例 • 広告メールの有無と使用額 𝑌 𝑖 (0)と𝑌 𝑖 (1)はどちらか一方しか 観測できない 因果推論の根本的な問題 (Holland) Individual Treatment Effect: ITE 𝑌 𝑖 (1) − 𝑌 𝑖 0 , 𝑖 = 1, … , 𝑛 集団レベルの平均的な 因果効果推定
  12. Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 17 • 仮定 (一致性):結果変数𝑌𝑖 は𝑇𝑖 = 0のとき𝑌 𝑖

    (0)と等しく,𝑇𝑖 = 1のとき𝑌 𝑖 (1)と等しい ⇒ 𝑌𝑖 = 𝑇𝑖 𝑌 𝑖 (1) + (1 − 𝑇𝑖 )𝑌 𝑖 (0)と表せる • 当然成り立つように見えるが、あくまで『仮定』 • 例えば、ユニット𝑖の結果変数が他のユニットの影響を受けないことが暗に仮 定されている ⇒ ワクチンの効果を調べるような問題では成り立たない可能性 Remark
  13. Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 18 • 処置変数𝑇𝑖 :0か1の2値をとる • 結果変数𝑌𝑖 • 𝑇𝑖

    の値に応じて,𝑌 𝑖 (0)と𝑌 𝑖 (1)という2つの確率変数の存在を仮定 例 • 広告メールの有無と使用額 ユーザー No. メールの 有無 𝑻 𝒀(𝟎) 𝒀(𝟏) 1 1 0 10000 2 0 15000 20000 ⋮ ⋮ ⋮ ⋮ 𝑛 1 5000 7500 𝑌 𝑖 (0):ユーザー𝑖にメールを送らなかったとき の使用額 𝑌 𝑖 (1):ユーザー𝑖にメールを送ったときの使用額 𝑌1 (0), … , 𝑌𝑛 (0)はi.i.d.で分布ℙ0 に従い, 𝑌1 (1), … , 𝑌𝑛 (1)はi.i.d.で分布ℙ1 に従うと仮定
  14. Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 19 𝑌1 (0), … , 𝑌𝑛 (0)はi.i.d.で分布ℙ0 に従い,

    𝑌1 (1), … , 𝑌𝑛 (1)はi.i.d.で分布ℙ1 に従うと仮定 例 • 広告メールの有無と使用額 ユーザー No. メール の有無 𝑻 𝒀(𝟎) 𝒀(𝟏) 𝒀 1 1 0 10000 10000 2 0 15000 20000 15000 ⋮ ⋮ ⋮ ⋮ ⋮ 𝑛 1 5000 7500 7500 ℙ0 ℙ1 E[𝑌(0)] E[𝑌(1)]
  15. Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 20 𝑌1 (0), … , 𝑌𝑛 (0)はi.i.d.で分布ℙ0 に従い,

    𝑌1 (1), … , 𝑌𝑛 (1)はi.i.d.で分布ℙ1 に従うと仮定 例 • 広告メールの有無と使用額 ユーザー No. メール の有無 𝑻 𝒀(𝟎) 𝒀(𝟏) 𝒀 1 1 0 10000 10000 2 0 15000 20000 15000 ⋮ ⋮ ⋮ ⋮ ⋮ 𝑛 1 5000 7500 7500 ℙ0 ℙ1 E[𝑌(0)] E[𝑌(1)] 定義(平均処置効果(ATE)): E 𝑌 1 − E[𝑌(0)] ※ これはあくまで因果効果の統計的な定義の1つ
  16. Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 21 Remark • 以下のように定義することも 母集団 サイズ:𝑁 標本 サイズ:𝑛

    それぞれに 𝑌 𝑖 (0)と𝑌 𝑖 (1) ATE:1 𝑁 σ𝑖=1 𝑁 𝑌 𝑖 (1) − 𝑌 𝑖 (0) • (非ベイズ的な設定では)𝑌 𝑖 (0), 𝑌 𝑖 (1)は 定数 • 本講演では前ページの定義で話を進める ※ 詳細はG. W. インベンス, D. B., ルービン, (星野 崇宏 (監修, 翻訳), 繁桝 算男 (監修, 翻訳)), 「統計的因果推論(上・下)」, (朝倉書店)を参照
  17. プリミティブな推定方法の問題点 AI・データ利活用研究会 22 • 大数の法則から 1 𝑖: 𝑇𝑖 = 1

    ෍ 𝑖:𝑇𝑖=1 𝑌𝑖 − 1 𝑖: 𝑇𝑖 = 0 ෍ 𝑖:𝑇𝑖=0 𝑌𝑖 ↓ E 𝑌(1) 𝑇 = 1 ↓ E 𝑌(0) 𝑇 = 0 E 𝑌(1) 𝑇 = 1 − E 𝑌 0 𝑇 = 0 ≠ E[𝑌 1 ] − E[𝑌(0)] セレクションバイアス 一般的に
  18. ランダム化比較試験 AI・データ利活用研究会 23 • 𝑇𝑖 が𝑌 𝑖 (0), 𝑌 𝑖

    (1)と独立の場合: E 𝑌(1) 𝑇 = 1 = E[𝑌 1 ] E 𝑌 0 𝑇 = 0 = E[𝑌(0)] プリミティブな推定方法で(𝑛が十分大きければ)ATEの推定が可能 • 𝑇𝑖 を他の変数とは無関係なランダムな確率変数とすれば,𝑌 𝑖 (0), 𝑌 𝑖 (1)とは独立になる – 例えば,コインを投げて表が出たら𝑇𝑖 = 0,裏が出たら𝑇𝑖 = 1とする • このような𝑇𝑖 の割り当ての方法をランダム化比較試験(RCT)という
  19. 共変量 • 多くの場合,処置変数𝑇と結果変数𝑌以外にも,これらと関係があると考えられる変数が 存在する AI・データ利活用研究会 25 例 • 広告メールの有無と使用額 ユーザー

    No. メールの有無 𝑻 昨年度の購入額 𝑿𝟏 直近購入日からの 経過月数 𝑿𝟐 𝒀(𝟎) 𝒀(𝟏) 1 1 5000 3 0 10000 2 0 15000 10 15000 20000 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 𝑛 1 10000 1 5000 7500 • 本講演では,このような変数を共変量とよぶ – 全ての共変量をまとめて𝑿と書く
  20. その他の因果的な量 • ATEは処置変数𝑇が結果変数𝑌に与える平均的な効果の大きさ • 𝑇が𝑌に与える効果が共変量𝑿に依存する場合,以下のような量も興味の対象 AI・データ利活用研究会 28 定義(条件付き平均処置効果(CATE)): CATE 𝒙

    = E 𝑌 1 − 𝑌 0 |𝑿 = 𝒙 • 𝑇が強い意味で無視可能な割り当てならば, 潜在反応を含まないので,原理的にはデータから推定可能 ※ E 𝑌 𝑖 (1) − 𝑌 𝑖 0 |𝑿 = 𝒙 をITEと呼ぶ人もいる(が、査読でツッコミが入ることが多い)
  21. 潜在反応モデルのまとめ • (𝑌 𝑖 0 , 𝑌 𝑖 1 ,

    𝑇, 𝑿)はi.i.d.で𝑝(𝑦 0 , 𝑦 1 , 𝑡, 𝒙)に従う • 𝑌𝑖 = 𝑇𝑖 𝑌 𝑖 (1) + (1 − 𝑇𝑖 )𝑌 𝑖 (0) • 強い意味での無視可能性: • Positivity:0 < 𝑝 𝑇 = 1 𝒙 < 1, ∀𝒙 s. t. 𝑝 𝒙 > 0 AI・データ利活用研究会 29 仮定 • ATE: • CATE: 推定対象
  22. 講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル –

    2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 30
  23. Pearlの構造的因果モデル AI・データ利活用研究会 31 因果ダイアグラム 構造方程式モデル 𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2

    , 𝜀𝑇 , 𝜀𝑌 はそれぞれ独立な 平均0の確率変数(錯乱項) 𝑔𝑋1 , 𝑔𝑋2 , 𝑔𝑇 , 𝑔𝑌 は何らかの関数
  24. Pearlの構造的因果モデル AI・データ利活用研究会 32 因果ダイアグラム 構造方程式モデル 非巡回有向グラフであることを仮定 𝜀𝑈 , 𝜀𝑋1 ,

    𝜀𝑋2 , 𝜀𝑇 , 𝜀𝑌 はそれぞれ独立な 平均0の確率変数(錯乱項) 𝑔𝑋1 , 𝑔𝑋2 , 𝑔𝑇 , 𝑔𝑌 は何らかの関数 左辺の確率変数は右辺の式に従って『生成 される』と考える (等号の代わりに←を使うこともある) 構造方程式モデルでは変数間の局所的な因 果関係が仮定に入っている
  25. Pearlの構造的因果モデル AI・データ利活用研究会 33 因果ダイアグラム 構造方程式モデル 因果ダイアグラムは非巡回有向グラフ(DAG)であることを仮定 𝜀𝑈 , 𝜀𝑋1 ,

    𝜀𝑋2 , 𝜀𝑇 , 𝜀𝑌 はそれぞれ独立な 平均0の確率変数(錯乱項) 𝑔𝑋1 , 𝑔𝑋2 , 𝑔𝑇 , 𝑔𝑌 は何らかの関数 左辺の変数の親ノードに相当する変数が右辺の関数の引数
  26. Pearlの構造的因果モデル AI・データ利活用研究会 34 因果ダイアグラム 構造方程式モデル 非巡回有向グラフであることを仮定 𝜀𝑈 , 𝜀𝑋1 ,

    𝜀𝑋2 , 𝜀𝑇 , 𝜀𝑌 はそれぞれ独立な 平均0の確率変数(錯乱項) 𝑔𝑋1 , 𝑔𝑋2 , 𝑔𝑇 , 𝑔𝑌 は何らかの関数 因果ダイアグラムは同時分布の因子分解構造を与える: 𝑝 𝑢, 𝑥1 , 𝑥2 , 𝑡, 𝑦 = 𝑝 𝑢 𝑝 𝑥1 𝑢 𝑝 𝑥2 𝑢 𝑝 𝑡 𝑥1 , 𝑥2 𝑝(𝑦|𝑥1 , 𝑥2 , 𝑡) 各因子の分布は関数𝑔𝑋1 , 𝑔𝑋2 , 𝑔𝑇 , 𝑔𝑌 や錯乱項𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑇 , 𝜀𝑌 の分布により決まる
  27. Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる •

    因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない(自律性) AI・データ利活用研究会 36
  28. Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる •

    因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない(自律性) AI・データ利活用研究会 37 介入後の分布: 𝑡の親ノード
  29. Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる •

    因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない(自律性) AI・データ利活用研究会 38 介入後の分布: do記法を 含まない
  30. Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる •

    因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない(自律性) AI・データ利活用研究会 39 介入後の分布: 傾向スコア
  31. Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる •

    因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない(自律性) AI・データ利活用研究会 40 介入後の分布: 定義(平均因果効果(ACE)): 通常の確率分布の周辺化と同様,
  32. Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる •

    因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない(自律性) AI・データ利活用研究会 41 介入後の分布: 定義(平均因果効果(ACE)): 通常の確率分布の周辺化と同様, do記法を含まない形で 書ける
  33. Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる •

    因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない(自律性) AI・データ利活用研究会 42 介入後の分布: 定義(平均因果効果(ACE)): 通常の確率分布の周辺化と同様, Remark • 文献によって𝑝do 𝑇=𝑡 (𝑦)を因果 効果や介入効果と言ったりする • Pearl自身がそのように書い ている • 個人的には介入分布 (interventional distribution) とかのほうが分かりやすいよう に思う
  34. Pearlの構造的因果モデル • 𝑝do(𝑇=𝑡) (𝑦)を定義どおり計算するためには、すべての変数間の関係性を知っている必要 がある AI・データ利活用研究会 43 変数集合𝒁が(𝑇, 𝑌)についてバックドア基準を満たすならば 𝑝do

    𝑇=𝑡 𝑦 = ∫ 𝑝 𝒛 𝑝 𝑦 𝑡, 𝒛 𝑑𝒛 定理([Pearl, 1995]) • 𝑇, 𝑌, 𝒁の間の関係性のみから計算(推定)可能 • バックドア基準を満たす変数の集合は複数存在 • 𝑇の親ノードの集合はバックドア基準を満たす • 本講演ではバックドア基準の詳細は割愛 • 直感的な考え方 ⇒ 林岳彦「はじめての統計的因果推論」(岩波書店) • 詳細な理論 ⇒ Pearlら(訳: 落海浩)「入門統計的因果推論」(朝倉書店)、宮川雅巳「統計的因果推 論:回帰分析の新しい枠組み」(朝倉書店)、黒木学「構造的因果モデルの基礎」(共立出版)
  35. 構造的因果モデルのまとめ • 𝑌𝑖 , 𝑇𝑖 , 𝑿𝑖 は仮定した構造方程式モデルにより生成される • 自律性:介入により𝑇を固定したときに,系の𝑇以外の部分に変化は生じない

    • Positivity:0 < 𝑝 𝑡 𝒙 < 1, ∀𝑡, ∀𝒙, s. t. 𝑝 𝒙 > 0 AI・データ利活用研究会 44 仮定 • ACE: • 𝑇が連続型の場合: 推定対象
  36. 講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル –

    2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 45
  37. 構造的因果モデルにおける潜在反応 AI・データ利活用研究会 46 𝑌は𝜺 = (𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2

    , 𝜀𝑇 , 𝜀𝑌 )から 確定的に決まる ⇒ 𝑌(𝜺)と書く 𝑌は𝜺′ = (𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑌 )と𝑡から 確定的に決まる ⇒ 𝑌 𝑡 (𝜺′)と書く 𝑌(𝑡)の分布は𝜺′の分布から決まる もし𝑇 = 𝑡だったら・・・
  38. 構造的因果モデルにおける潜在反応 AI・データ利活用研究会 47 𝑌は𝜺 = (𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2

    , 𝜀𝑇 , 𝜀𝑌 )から 確定的に決まる ⇒ 𝑌(𝜺)と書く 𝑌は𝜺′ = (𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑌 )と𝑡から 確定的に決まる ⇒ 𝑌 𝑡 (𝜺′)と書く 𝑌(𝑡)の分布は𝜺′の分布から決まる もし𝑇 = 𝑡だったら・・・ • 𝑇 = 𝑡となるような𝜺に対して、定義から以下が成り立つ: 𝑌 𝜺 = 𝑌 𝑡 (𝜺′) ⇒ 構造的因果モデルにおける一致性
  39. 構造的因果モデルにおける潜在反応 AI・データ利活用研究会 48 𝑌は𝜺 = (𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2

    , 𝜀𝑇 , 𝜀𝑌 )から 確定的に決まる ⇒ 𝑌(𝜺)と書く 𝑌は𝜺′ = (𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑌 )と𝑡から 確定的に決まる ⇒ 𝑌 𝑡 (𝜺′)と書く 𝑌(𝑡)の分布は𝜺′の分布から決まる もし𝑇 = 𝑡だったら・・・ • 𝑇 = 𝑡となるような𝜺に対して、定義から以下が成り立つ: 𝑌 𝜺 = 𝑌 𝑡 (𝜺′) ⇒ 構造的因果モデルにおける一致性 • 潜在反応モデルにおける一致性は仮定 • 構造的因果モデルにおける一致性は構造方程 式と自律性から導かれる定理
  40. 構造的因果モデルにおける潜在反応 AI・データ利活用研究会 49 変数集合𝒁が(𝑇, 𝑌)についてバックドア基準を満たすならば 定理([Pearl, 2000]) • 構造的因果モデルにおいては、強い無視可能性も、構造方程式と自律性から導かれる 定理

    • この定理を拠り所に、傾向スコアを用いた因果効果推定(後述)で、傾向スコアのモデ ルの変数選択にバックドア基準を用いるというアプローチが考えられる • Morgan, Winship(訳: 落海浩)「反事実と因果推論」(朝倉書店)では社会科学への応用について詳 しく書かれている
  41. 講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル –

    2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 50
  42. メタな視点から見た統計的因果推論 AI・データ利活用研究会 51 母集団分布 𝑝(𝒗) 𝒗1 , 𝒗2 , …

    , 𝒗𝑛 i.i.d. 𝒗𝑖 = (𝑡𝑖 , 𝒙𝑖 , 𝑦𝑖 ) Ψ(𝑝) 分布の特徴量: 推定
  43. メタな視点から見た統計的因果推論 AI・データ利活用研究会 54 母集団分布 𝑝(𝒗) 𝒗1 , 𝒗2 , …

    , 𝒗𝑛 i.i.d. 𝒗𝑖 = (𝑡𝑖 , 𝒙𝑖 , 𝑦𝑖 ) Ψ(𝑝) 分布の特徴量: 推定 • 一般的な統計的推測の話と同じ • Ψ(𝑝)が『因果的な量』と見なせるかどうかは 仮定(と哲学)による
  44. プラグイン型の推定 AI・データ利活用研究会 55 母集団分布 𝑝(𝒗; 𝜽) 𝒗1 , 𝒗2 ,

    … , 𝒗𝑛 i.i.d. 𝒗𝑖 = (𝑡𝑖 , 𝒙𝑖 , 𝑦𝑖 ) Ψ(𝑝) 分布の特徴量: 推定 • 分布𝑝(𝒗)をパラメトリックな分布𝑝(𝒗; 𝜽)によ りモデル化 • 𝜽を何らかの方法(例:最尤推定)により 推定し෡ 𝜽を得る • Ψ(𝑝(𝒗; ෡ 𝜽))により推定する すぐに考えられる推定方法 分布のクラスが複雑な場合や,𝜽が高次元・ 無限次元のときなどに望ましい性質(例えば 不偏性)を持たないことがある
  45. ATEの推定量 AI・データ利活用研究会 56 • (強い意味での無視可能性が成り立つときの)ATE: 回帰による推定量 • 条件付き期待値をE[𝑌|𝑿, 𝑇] =

    𝜇(𝑿, 𝑇; 𝝃)によりモデル化 例えば線形回帰ならば,𝜇 𝑿, 𝑇; 𝝃 = 𝜃𝑇 + 𝜷⊤𝑿 適当な条件のもとで最小二乗推定量がATEの不偏推定量
  46. ATEの推定量 AI・データ利活用研究会 57 • 傾向スコア𝑝(𝑇 = 1|𝑿)が既知ならば はATEの不偏推定量 • 実際には𝑝(𝑇

    = 1|𝑿)は未知なので,何らかのモデル(例えばロジスティック回帰モデル) 𝑝(𝑇 = 1|𝑿, 𝝎)を仮定して𝝎を推定 – 𝝎の推定量ෝ 𝝎が一致性を持てば,IPW推定量はATEの一致推定量 IPW推定量 [Horvits and Thompson, 1952]
  47. ATEの推定量 AI・データ利活用研究会 58 • 回帰による推定量 ⇒ E[𝑌|𝑿, 𝑇]をモデリング・推定 • IPW推定量

    ⇒ 𝑝 𝑇 = 1 𝑿 = E[𝑇|𝑿]をモデリング・推定 AIPW推定量(Doubly Robust 推定量) いずれも,条件付き期待値の一致推定量が必要 • E 𝑌 𝑿, 𝑇 , E[𝑇|𝑿]のいずれかの推定量が一致性を持っていればAIPW推定量はATEの 一致推定量 • AIPW推定量は局所セミパラメトリック有効性を持つ [Robins+, 1994]
  48. ATEの推定量 AI・データ利活用研究会 59 • 回帰による推定量 ⇒ E[𝑌|𝑿, 𝑇]をモデリング・推定 • IPW推定量

    ⇒ 𝑝 𝑇 = 1 𝑿 = E[𝑇|𝑿]をモデリング・推定 一方がどちらかより優れているという訳では無い • 傾向スコアを使った手法が好まれるのは、E[𝑌|𝑿, 𝑇]よりもE[𝑇|𝑿]の方が推定しやすいと考 えられているから? (個人的な推測) • 例えばノンパラメトリック推定をするならば、関数が滑らかな方が推定しやすい Remark
  49. ATEの推定量 AI・データ利活用研究会 60 Double/Debiased Machine Learning (DML) • 𝑌, 𝑿,

    𝑇の間の関係を次のようにモデル化 𝑓, 𝑔は未知の非線形関数 • 詳細は後述するが,E[𝑌|𝑿]とE[𝑇|𝑿]を(機械学習アルゴリズムを用いて)推定し,𝜃を 推定する • 𝜃を𝑿の関数𝜃(𝑿)としてCATEを推定する研究も存在(後述) [Chernozhukov+, 2018]
  50. ACEの推定量 AI・データ利活用研究会 61 • 構造方程式が線形の場合: 𝑌を𝑇, 𝒁で線形回帰したときの𝑇の回帰係数がACEと 等しい(左図では𝒁 = {𝑋1

    , 𝑋2 }) 𝑋𝑖 の親ノードの変数の集合 因果ダイアグラム上での𝑇から𝑌への有向パスの集合 [Pearl, 2000] バックドア基準の定理を適用
  51. 講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル –

    2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 62
  52. 推定量の分類 AI・データ利活用研究会 63 母集団分布 𝑝(𝒗; 𝜽) i.i.d. 𝒗𝑖 = (𝑡𝑖

    , 𝒙𝑖 , 𝑦𝑖 ) Ψ(𝑝) 分布の特徴量: 推定 • 𝑝(𝒗; 𝜽)のモデリング • 推定量の評価基準 – 一致性 – (漸近)不偏性 – 推定量の漸近正規性 – 推定量の分散 – ・・・ 分類の軸
  53. 統計的決定理論による定式化 AI・データ利活用研究会 64 母集団分布 𝑝(𝒗; 𝜽) i.i.d. Ψ(𝑝) 分布の特徴量: 推定

    ⇒ 決定関数 • 損失関数: ℓ(Ψ 𝑃 , 𝑑(𝒟𝑛)) • 危険関数: 𝑅 𝑑, 𝜽 = E𝒟𝑛[ℓ(Ψ 𝑃 , 𝑑(𝒟𝑛))] • ベイズ危険関数: 𝐵𝑅 𝑑 = E𝜽 [𝑅 𝑑, 𝜽 ] 𝒗𝑖 = (𝑡𝑖 , 𝒙𝑖 , 𝑦𝑖 ) ※ 統計的決定理論についてもう少し詳しく知りたい方は「データ科学入門シリーズ」(サイエンス 社)を是非!より詳しく知りたい方はBerger, “Statistical Decision Theory and Bayesian Analysis” (Springer)がお勧め。
  54. 統計的決定理論による定式化 AI・データ利活用研究会 65 母集団分布 𝑝(𝒗; 𝜽) i.i.d. Ψ(𝑝) 分布の特徴量: 推定の鍵

    Ψ(𝑝)の事後分布 𝑝(Ψ(𝑝)|𝒟𝑛) 例:二乗誤差損失⇒事後平均がベイズ最適 ベイズ的アプローチの利点: • 興味の対象外の母数(局外母数)を周辺 化により消去可能 • 推定の不確実性の定量化 𝒗𝑖 = (𝑡𝑖 , 𝒙𝑖 , 𝑦𝑖 ) 推定 ⇒ 決定関数
  55. 潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 69 線形回帰によるCATEのベイズ推定 方策1 • 𝑝(𝑦|𝒙, 𝑡 = 0)と𝑝(𝑦|𝒙,

    𝑡 = 1)を別々にモデル化 𝑇 = 0のとき 𝑇 = 1のとき (𝜷1 − 𝜷0 )⊤𝒙の事後分布がCATEの事後分布 • T-Learnerと近い – E[𝑌|𝑿 = 𝒙, 𝑇 = 1]とE[𝑌|𝑿 = 𝒙, 𝑇 = 0]を学習
  56. 潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 70 ノンパラメトリックモデル(ガウス過程)に拡張 推定対象 の分布 損失関数 と の間のKL距離 (ノンパラメトリックベイズモデル)

    [Alaa and Schaar, 2018] がベイズ最適 𝑇 = 0のとき 𝑇 = 1のとき • ミニマックスレートに関する理論解析 – 最適なレートが𝑓0 , 𝑓1 のうち複雑な方の関数の複雑さに依存
  57. 潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 72 非線形に拡張(1) 推定対象 CATE 損失関数 CATEと の間の二乗誤差損失 (Bayesian

    Additive Regression Tree 事前分布) の平均がベイズ最適 • MCMCにより事後分布に従うサンプルを近似的に生成 [Hahn et al., 2020] (Bayesian Causal Forest: BCF)
  58. 潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 73 非線形に拡張(2) 推定対象 CATE 損失関数 CATEと の間の二乗誤差損失 (ガウス過程事前分布)

    [Horii, 2022][Horii and Chikahara, 2024] の平均がベイズ最適 • 事後分布が解析的に計算可能 • 事後分布に関する理論解析を少し https://github.com/holyshun/GP-PLM
  59. 潜在反応モデルにおけるベイズ的アプローチ • 半人工データによる実験 – Linked Birth and Infant Death Data

    (LBIDD) – 人工的に生成された潜在反応を含んでいる(ITEが分かる) – ITEをCATEで推定したときの誤差を評価 AI・データ利活用研究会 74
  60. 潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 75 方策1と方策2の比較 方策1 𝑇 = 0のとき 𝑇 =

    1のとき 方策2 • 方策1では連続な処置変数が扱えない • 方策1では「因果効果に影響のある変数が𝑿の一部である」というような事前情報を 入れるのが難しい – 方策2では𝜃(𝑾)のようにすれば良い(𝑾は𝑿の一部) • 逆に、𝑇 = 0, 1のときの𝑌のモデルに事前情報があるなら方策1のほうが良い
  61. 潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 77 Double/Debiased Machine Learningとの関係性 モデル 従来研究の分類 • 𝜃(𝑿)が定数または(低次元)線形関数:[Chernozhukov,

    2016] • 𝜃(𝑿)が再生核ヒルベルト空間:[Nie, 2017] • 𝜃(𝑿)が高次元スパース線形関数:[Chernozhukov, 2017] • [Horii, 2022][Horii and Chikahara, 2024]は[Nie, 2017]に対するベイズ版 のようなものと考えられる
  62. 潜在反応モデルにおけるベイズ的アプローチにおける傾向スコア AI・データ利活用研究会 78 • ATE、CATE推定、いずれにしてもベイズ推定を行うときに傾向スコアは出てこない – (参考):Bayesian Causal Inferenceでは傾向スコアは不要? (https://horiilab.com/2023/03/27/bayesian-causal-

    inference%E3%81%A7%E3%81%AF%E5%82%BE%E5%90%91%E3%82%B9%E3%82%B3%E 3%82%A2%E3%81%AF%E4%B8%8D%E8%A6%81/) • ATEやCATEは𝑝(𝑦|𝒙, 𝑡)の関数 • ATEやCATEの事後分布計算に𝑝(𝑡|𝒙)は現れない • BCFでは傾向スコアの推定値が特徴量として使われている – データの二度漬け • 𝑝(𝑦|𝒙, 𝑡)と𝑝(𝑡|𝒙)のパラメータの事前分布が独立でないと きは、この限りではない
  63. 構造的因果モデルにおけるベイズ的アプローチ AI・データ利活用研究会 79 因果ダイアグラムを確率変数と考えるモデル化 [Horii and Suko 2019], [Horii 2021]

    𝐺1 𝐺2 𝐺3 𝐺4 推定対象 ACE 損失関数 ACEと の間の二乗誤差損失 がベイズ最適 ※因果ダイアグラムの探索 ⇒ 因果探索 計算が大変...
  64. 構造的因果モデルにおけるベイズ的アプローチ AI・データ利活用研究会 80 観察データと実験データを結びつける [Horii and Chikahara, 2024] 観察データ:𝐷0 実験データ(do(𝐴

    = 𝑎)):𝐷𝑎 [V. Aglietti et al., 2020] • 従来研究:変数集合𝑿に介入したときの平均因果効果𝔼do(𝑿=𝒙) [𝑌]をガウス 過程でモデル化してマルチタスク学習 • 提案手法:自律性を根拠に、観察データと実験データのもとでの事後分布を計算
  65. まとめ • 統計的因果推論 ⇒ 統計的推測問題の一種 – 様々な仮定を置くことで,推定対象が因果的な量としてみなせる – 「何を推定対象と考えるか」と「推定対象をどのように推定するか」は別の話 •

    モデリング,評価基準により様々なアプローチが可能 – ベイズ統計的アプローチ ⇒ 推定対象の事後分布が鍵 – モデルと推定対象が決まれば、論理的にはベイズ推定は自動的に決まる • 何を推定対象とするかについてコンセンサスが取れてしまえば、因果推論を特 別視する理由はない(なので、本講演のタイトルはタイトル詐欺かも) AI・データ利活用研究会 81
  66. 参考文献 • D. Horvitz and D. Thompson, “A generalization of

    sampling without replacement from a finite universe,” Journal of the American Statistical Association, 47(260):663-685, 1952. • J. Robins, A. Rotnitzky, and L. P. Zhao, “Estimation of regression coefficients when some regressors are not always observed,” Journal of the American Statistical Association, 89(427):846-866, 1994. • V. Chernozhukov, D. Chetverikov, M. Demirer, E. Duflo, C. Hansen, W. Newey, and J. Robins, “Double/debiased machine learning for treatment and structural parameters,” The Econometrics Journal, 21(1), 2018. • J. Pearl, “Causality: Models, Reasoning, and Inference,” Cambridge University press, 2000. • A. Alaa and M. Van der Schaar, “Bayesian nonparametric causal inference: Information rates and learning algorithms,” IEEE Journal of Selected Topics in Signal Processing, 12(5):1031-1046, 2018. • Hahn, P. Richard, Jared S. Murray, and Carlos M. Carvalho. "Bayesian regression tree models for causal inference: Regularization, confounding, and heterogeneous effects (with discussion)." Bayesian Analysis 15.3 (2020): 965-1056. • Nie, Xinkun, and Stefan Wager. "Quasi-oracle estimation of heterogeneous treatment effects." Biometrika 108.2 (2021): 299-319. • V. Aglietti, T. Damoulas, M. A. Alvarez, J. Gonzalez, “Multi-task causal learning with Gaussian processes,” In Proc. of the 34th International Conference on Neural Information Processing Systems (NeurIPS 2020). AI・データ利活用研究会 82
  67. 参考文献 • S. Horii, Heterogeneous treatment effect estimation based on

    a partially linear nonparametric bayes model, arXiv preprint arXiv:2201.12016 (2022). • S. Horii and T. Suko, “A Note on the estimation method of intervention effects based on statistical decision theory,” Proc. of 53rd Annual Conference on Information Sciences and Systems (CISS), 2019. • S. Horii, “Bayesian model averaging for causality estimation and its approximation based on gaussian scale mixture distributions,” Proc. of International Conference on Artificial Intelligence and Statistics (AISTATS), 955-963, PMLR, 2021. • S. Horii, Y. Chikahara, "Uncertainty Quantification in Heterogeneous Treatment Effect Estimation with Gaussian-Process-Based Partially Linear Model," 38th AAAI Conference on Artificial Intelligence (AAAI-24). AI・データ利活用研究会 83
  68. 参考文献 • G. Imbens, D. Rubin, “Causal Inference for Statistics,

    Social, and Biomedical Sciences: An Introduction,” Cambridge University Press, 2015. • J. Pearl, “Causality: Models, Reasoning, and Inference,” Cambridge University Press, 2000. • A. Tsiatis, “Semiparametric Theory and Missing Data,” Springer, 2006. • M. van der Laan, S. Rose, “Targeted Learning: Causal Inference for Observational and Experimental Data,” Springer, 2011. AI・データ利活用研究会 84
  69. 参考文献 • 安井翔太, 「効果検証入門」, 技術評論社, 2020. • 林岳彦, 「はじめての統計的因果推論」, (岩波書店),

    2024. • Judea Pearl, Madelyn Glymour, Nicholas P. Jewell, (落海浩訳), 「入門 統 計的因果推論」, (朝倉書店), 2019. • 宮川雅巳, 「統計的因果推論:回帰分析の新しい枠組み」, (朝倉書店), 2004. • 黒木学, 「構造的因果モデルの基礎」, (共立出版), 2017. • S. L. Morgan, C. Winship, (落海浩訳), 「反事実と因果推論」, (朝倉書店), 2024. • G. W. インベンス, D. B., ルービン, (星野 崇宏 (監修, 翻訳), 繁桝 算男 (監 修, 翻訳)), 「統計的因果推論(上・下)」, (朝倉書店), 2023. AI・データ利活用研究会 85