Upgrade to Pro — share decks privately, control downloads, hide ads and more …

統計的因果探索: 背景知識とデータにより因果仮説を探索する

Shohei SHIMIZU
January 22, 2025

統計的因果探索: 背景知識とデータにより因果仮説を探索する

第15回情報系研究会

Shohei SHIMIZU

January 22, 2025
Tweet

More Decks by Shohei SHIMIZU

Other Decks in Science

Transcript

  1. ◼背景知識を基に交絡変数間の関係を図示: 因果グラフ ◼グラフ構造を基にどの変数で調整すべきかを判定 • バックドア基準 (Pearl, 1993) など • 十分条件の例:

    xの親をすべて観測して調整 • できない場合もある 7 交絡変数の見つけ方 x:薬 y:治癒 z: 重症度 交絡変数 (共通原因)
  2. 因果グラフを描く「支援」 統計的因果探索 ◼データを用いて因果グラフを推測するための方法論 ◼背景知識以外の手段 (定説がない場合) 8 Maeda and Shimizu (2020)

    仮定(+背景知識) 推測 • 未観測交絡変数の有無 • 非巡回 or 巡回 • 関数形 • 分布など データ 因果グラフ 探索スペースを決める データと照らし合わせる 残った候補
  3. 因果探索の基本アイデア 1. 因果モデルに仮定をおく • 非巡回有向グラフ • 未観測の交絡変数(共通原因)なし 2. 仮定を満たすグラフの中で、データとつじつまの合うグラフ を残す

    10 「データでxとyが独立」なら、(c)を残す 「データでxとyが従属」なら、 (a)と(b)を残す 3つの候補 (a) (b) (c) x y x y x y (a)と(b)の区別はつかない(どんなにサンプルサイズを増やしても): 同値類
  4. ◼行列形式で書き直すとICA ◼独立成分分析をかけて 混合行列のどこがゼロ非ゼロかチェック 13 独立成分分析(ICA)との関係 𝑥1 𝑥2 𝑒1 𝑒2 𝑥1

    = 𝑒1 𝑥2 = 𝑏21 𝑥1 + 𝑒2 𝑥1 𝑥2 = 1 0 𝑏21 1 𝑒1 𝑒2 𝑥1 𝑥2 𝑒1 𝑒2 𝑥1 = 𝑏12 𝑥2 + 𝑒1 𝑥2 = 𝑒2 𝑥1 𝑥2 = 1 𝑏12 0 1 𝑒1 𝑒2
  5. ◼時間情報は背景知識として利用 (e.g., Hyvarinen+2010, Maeda+2024) ◼ここまでの因果探索は同時点(瞬時)のモデルとして利用 • 巡回モデル (Richardson1996, Lacerda+2008) 15

    時間情報も使う 𝑥2 (𝑡 − 1) 𝑥1 (𝑡 − 1) 𝑥𝑖 (𝑡) = ෍ 𝑗,𝜏: 𝑥𝑖 の親 𝑓 𝑖𝑗 𝜏 (𝑥𝑗 𝑡 − 𝜏 ) + ෍ 𝑘, 𝜔: 𝑥𝑖 の親 𝑔 𝑖𝑘 𝜔 (𝑢𝑘 (𝑡 − 𝜔)) + 𝑒𝑖 (𝑡) 向き・交絡の「存在」 が識別可能 𝑥2 (𝑡) 𝑥1 (𝑡)
  6. ◼LiNGAM Python package (Ikeuchi+2023) • Github: https://github.com/cdt15/lingam ◼Causal-learn (Zheng+2024) •

    Github: https://github.com/py-why/causal-learn ◼Tigramite • Github: https://github.com/jakobrunge/tigramite ◼Causalas • プログラム書かずに クリックで 16 ソフトウェア
  7. ◼「保健指導による介入」が「翌年度以降の健診結果」 に与える影響 (Okuda+in prep.) ◼全国規模の保険者データベース ◼先行研究: 回帰不連続デザイン (Fukuma+2020) 17 適用例:

    予防医学 健康アウトカム 翌年度 翌々年度 翌々年度 BMI -0.206 [-0.215, -0.196] -0.163 [-0.175, -0.153] -0.144 [-0.157, -0.130] 収縮期血圧 -0.293 [-0.399, -0.180] -0.040 [-0.168, 0.071] -0.030 [-0.149, 0.082] ヘモグロビンA1c -0.035 [-0.039, -0.032] -0.031 [-0.035, -0.027] -0.031 [-0.035, -0.026] LDLコレステロール 0.582 [0.423, 0.751] 0.636 [0.456, 0.804] 0.459 [0.238, 0.661] 背景知識+データ
  8. ◼各政策要因による博士課程進学者数への 因果メカニズムの定量的理解へ (高山+2024: 研究イノベーション学会) ◼公開データを基に大学別のデータセットを構築 • 国立86大学 x 11か年度 18

    適用例: 政策研究 変数名 内容 M_graduate 修士課程等修了者数 D_entrance 博士課程進学者数 Ph.D_grauduate 博士課程修了者数 PosDoc 博士課程修了直後のポスドク就職者数 AcaPos 博士課程修了直後の大学教員就職者数 Basic_income 運営費交付金収益額 Students_per_teacher 教員一人当たり学生数 DC1 DC1採択者数 【重点支援3の16大学】
  9. 大規模言語モデル (LLM) ◼Causal parrots (Zečević+2023) : オウム返し ◼LLMによる背景知識抽出 統計的因果探索 (Takayama+2024)

    ◼Causal-Copilot (https://github.com/Lancelot39/Causal-Copilot) • アルゴリズムの選択を支援 19 リークのない (LLMが知らない) 健康診断データで評価
  10. ◼因果探索は背景知識とデータから因果グラフを推測 • 因果グラフは因果モデルの核 • 因果の大きさなど因果的量の計算に必要 ◼参考: 変数の定義を支援 • Abstraction (e.g.,

    Chalupka+2017; Xia+2024) • Causal representation learning (e.g., Schölkopf+2021; Morioka+23) 20 まとめ Chalupka+2017 Schölkopf+2021 背景知識 + データ Maeda and Shimizu (2020)