Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

統計的因果探索の概要と役割

 統計的因果探索の概要と役割

AI・データ利活用研究会 第48回

Shohei SHIMIZU

May 19, 2023
Tweet

More Decks by Shohei SHIMIZU

Other Decks in Science

Transcript

  1. 広報 n滋賀大 データサイエンス研究科 博士後期課程 • https://www.shiga- u.ac.jp/admission/examination_info/exam_dsresearch/exam_dsresearch_doctorer/ n理研 因果推論チーム 研究員

    or 特別研究員 • https://www.riken.jp/careers/researchers/20221118_1/index.html • 因果探索を用いた分析 (科学者との共同研究) • 因果探索の方法論 2
  2. はじめに nDonald RubinとJudea Pearlが2大シンボル • 潜在反応モデル • 構造的因果モデル • 結論が違ってくるわけではない

    nトピック • 因果を数学的に表現するための枠組み • 因果は、どのような仮定の下で推定可能か: 識別性 • 推定可能であれば、どう精度よく推定するか • 仮定の妥当性をどう評価するか 4
  3. 因果探索は因果推論の七つ道具の一つ (Pearl, 2019: The Seven Tools of Causal Inference, with

    Reflections on Machine Learning) nTool 1. Encoding causal assumptions: Transparency and testability nTool 2. Do-calculus and the control of confounding nTool 3. The algorithmitization of counterfactuals nTool 4. Mediation analysis and the assessment of direct and indirect effects nTool 5. Adaptability, external validity, and sample selection bias nTool 6. Recovering from missing data nTool 7. Causal discovery (因果探索) 5
  4. 因果推論の出発点 6 Messerli, (2012), New England Journal of Medicine !

    " # $ 賞 受 賞 者 ( 数 相関係数: 0.79 チョコレート消費量 n相関があるからと言って 因果関係があるとは限らない n「チョコレート消費量と ノーベル賞受賞者の数に 相関がある」からと言って、 「チョコレート消費量を増やせば ノーベル賞受賞者が増える」 とは限らない
  5. 相関関係と因果関係のギャップ 7 チョコ 賞 ? チョコ 賞 or GDP GDP

    チョコ 賞 or GDP 複数の因果関係が同じ相関関係を与えうる 賞 未観測共通原因 未観測共通原因 未観測共通原因 ギャップ チョコ 上記のどのケースでも (右のチョコと賞に因果的に関係ないようなケースでも) 相関係数が0.79になり得る
  6. 領域知識を用いて因果グラフを描く n先行研究を基に描く • 時間情報 • 難しさ • 定説がない • 調べられてない

    • (査読者と激論) n研究デザインから決まる • ランダム化実験 • 実験が倫理的・コスト的に難 • 実験環境外での評価も重要 9 チョコ 賞 GDP 因果グラフ どこに有向辺を引くか引かないか 引用文献をつけていく チョコ 賞 GDP チョコの消費量をランダムに割り付け: たくさん食べさせる国々と 食べさせない国々
  7. 因果推論の適用範囲は広がっている n伝統的な因果分析 • 介入効果: ランダム化実験(A/Bテスト)や調査 • 医学、疫学、経済学、社会学、製造業、気候学 などなど nAIの信頼性 •

    説明性 (Galhotra et al., 2021) • 公平性 (Kusner et al., 2017) n機械学習との融合領域 • 強化学習と因果推論 (e.g., Lee & Bareinboim, 2018) • ドメイン適応と因果推論 (Zhang et al., 2015) 11
  8. 因果推論の根本問題 (Holland, 1986) n個体における因果は、一般には同定できない • 観測できるのはどちらか一方 14 薬 治癒 ?

    なし ¹ ゼウス 薬を飲ませてしまったら、 薬を飲まないでもらった場合にどうなるかは不明
  9. 介入を表す記号𝑑𝑜を導入し、 集団における因果を表現 n薬を飲ませる介入𝑑𝑜 𝑥 = 1 をした集団と n薬を飲ませない介入𝑑𝑜 𝑥 =

    0 をした集団を比較 17 𝑝(𝑦|𝑑𝑜 𝑥 = 1 ) ≠ 𝑝(𝑦|𝑑𝑜 𝑥 = 0 )なら、𝑥が原因で𝑦が結果 治癒するかの分布 𝑝(𝑦|𝑑𝑜 𝑥 = 1 ) 𝑝(𝑦|𝑑𝑜(𝑥 = 0)) なし 分析対象の 集団 ≠?
  10. 介入𝑑𝑜をした集団とは n介入前のデータ生成過程を方程式(構造方程式)で表す n介入𝑑𝑜 𝑥 = 1 すると新しい集団ができる 18 𝑥 𝑦

    𝑧 因果グラフ 𝑥 = 𝑓# 𝑧, 𝑒# 𝑦 = 𝑓$ 𝑥, 𝑧, 𝑒$ 𝑒! 𝑒" 介入後の分布 𝑥 𝑦 𝑧 因果グラフ 𝑥 = 1 𝑦 = 𝑓$ 𝑥, 𝑧, 𝑒$ 1 𝑒" 自然におまかせ 𝑝(𝑦|𝑑𝑜 𝑥 = 1 ) 𝑒! と𝑒" は独立
  11. 重症度の高低で分ける(層別/調整) n違いは、投薬の有無のみ n層ごとに治癒の割合を計算して、人数で重み付け平均して 𝑝(𝑦|𝑑𝑜 𝑥 = 1 )と𝑝(𝑦|𝑑𝑜 𝑥 =

    0 )を計算 23 薬 治癒の割合 治癒の割合 なし などなどたくさん ≠? みな重症 𝑝(𝑦|𝑑𝑜 𝑥 = 1 , 重症) 𝑝(𝑦|𝑑𝑜 𝑥 = 0 , 重症)
  12. 因果効果は推定可能か: 識別性 n因果グラフから自動的に判断 • ノンパラ or +線形性 ndo計算法 • バックドア基準

    (Pearl, 1995) • 操作変数法 (Wright, 1928) • フロントドア基準 (Pearl, 1993) • 代替変数 (Kuroki & Pearl, 2014) n十分条件の例 • 𝑥の親を全てで調整 24 𝐸 𝑦 𝑑𝑜 𝑥 = 𝐸 #の親(𝐸(𝑦|𝑥, 𝑥の親)) 介⼊後の期待値を条件付き期待値で推定可能: 回帰の問題へ (機械学習の利⽤) X Y U X Y U I M Y U X X Y W 誤差変数は省略 U
  13. 因果効果(介入効果)以外にも因果的な量 n総合効果、直接効果、間接効果 n反実仮想の確率 ncf. 因果的Shapley値 (Heskes et al., 2020) 25

    説明性 原因の確率 (Pearl, 1999) 例: 十分性の確率:現実には曝露を受けず疾患を発症しな かった対象者が曝露を受けたならば疾患を発症したであろ う確率 AIの説明性ヘの応用 (Galhotra et al., 2021) もしも | 現実 もし曝露を受けたら、 発症した 曝露を受けない 発症しない 公平性 性別は男から女に変えるが、 適性は変えないとき、 雇用される確率はどのくらい変わるか? これが大きいと、性別について公平でないと考える (Pearl, 2000) 「公平」な機械学習モデルの構築 (Kusner et al., 2017) x (性別) y (適性) z (雇用) 仕組みの理解 (Mao et al., 2022) 予測の根拠になる理由は因果か疑似相関か 因果の方が汎化性能が良いはず
  14. 統計的因果探索とは nデータを用いて因果グラフを推測するための方法論 28 Maeda and Shimizu (2020) 仮定 推測 •

    関数形 • 分布 • 未観測共通原因の有無 • 非巡回 or 巡回 など データ 因果グラフ
  15. フレームワーク n構造的因果モデル (Pearl, 2009) n仮定を表現 • 関数形 • 分布 •

    未観測共通原因の有無 • 非巡回 or 巡回 など n因果モデルに仮定をおき、 その中でデータとつじつまの合うモデルを探す 29 x3 x1 e3 e1 x2 e2 𝑥! = 𝑓! (𝑥! の親, 𝑒! ) 誤差変数
  16. 典型的な仮定 n典型例1: • 非巡回有向グラフ • 未観測共通原因なし (すべて観測されている) n典型例2: • 非巡回有向グラフ

    • 未観測共通原因あり nさらに、関数形や分布に仮定をおくかで分かれる • ノンパラ • セミパラ・パラメトリック 30 x3 x1 x2 x3 x1 x2 U
  17. 典型例1で、ノンパラの場合の推論の仕方 1. 因果モデルに仮定をおく • 非巡回有向グラフ • 未観測の共通原因なし • +忠実性 (条件付き独立性とグラフ構造の対応を崩すパラメータ値をもつモデルの削除)

    2. 仮定を満たす構造の中で、データと(最も)つじつまの合うグラフを選ぶ 31 「データでxとyが独立」なら、一番右の(c)を選ぶ (a)と(b)の区別がつかない(一意に決まらない): 同値類 3つの候補 (a) (b) (c) x y x y x y
  18. 典型例1で、セミパラの場合 n関数形や分布に仮定を入れる: LiNGAM (Shimizu et al., 2006) • 線形性 •

    非ガウス性 n(多変数で)一意に因果グラフを推定可能 n𝑥! の親と誤差𝑒! の独立性も利用 33 𝑥$ = ∑ #! の親 𝑏$% 𝑥% +𝑒$ 非ガウス 3つの候補から一つに絞れる (a) (b) (c) x y x y x y
  19. 他の識別可能なモデル n連続変数で非線形 (Hoyer et al., 2008; Zhang et al., 2009;

    Peters et al., 2014; Khemakhem et al., 2021) • 𝑥! = 𝑓! (par(𝑥! )) + 𝑒! • 𝑥! = 𝑔! "#(𝑓! (par(𝑥! )) + 𝑒! ) n離散変数 • ポワソンDAGモデルと拡張 (Park et al., 2018) • 順序尺度 (Ni et al., 2021) n離散と連続の混在 • LiNGAM + ロジスティック型モデル (Wei et al. 2018; Zeng et al., 2022) • 非線形化 (Li et al., 2022) • 現状、離散-離散の場合の仮定が強い 34
  20. 典型例2で、ノンパラの場合の推論の仕方 1. 因果モデルに仮定をおく • 非巡回有向グラフ • 未観測の共通原因あり • +忠実性 2.

    仮定を満たす構造の中で、データと(最も)つじつまの合うグラフを選ぶ 35 「データでxとyが独立」なら、右上の(c)を選ぶ 後は区別がつかない: 同値類 “6”つの候補 (a) (b) (c) x y x y x y (d) (e) (f) x y x y x y U U U
  21. 典型例2で、セミパラの場合 nノンパラより多くの因果の 向きを推定可 (Maeda & Shimizu, 2000; 2001) n未観測共通原因があっても 因果の向きを推定可能

    (Hoyer et al., 2008; Salehkaleybar et al., 2020) • LiNGAMの拡張 • 忠実性 • 推定法は発展途上 36 36 真 出力 !! !" "" !! !" "" !! !" "" !! !" "" !# !$ !! !" !# !$ "!
  22. 推定法 回帰と独立性評価が基本ツール n制約ベースの方法 (PC, FCI, RCD, CAM-UV, ...) • 制約が成り立つかを調べておいて、それを満たすモデルを探す

    • 検定 (e.g., 変数タイプごとに検定を変える) nスコアベースの方法 (GES, GFCI, LiNGAM, RESIT, ...) • モデル(の部分)ごとにスコアを求めて、スコアを最大にするモデ ルを探す • 独立性の最大化や情報量基準 n連続最適化 (Zheng et al., 2018; Bhattacharya et al. 2021) • DAG性を表す正則化項をつけて、スコアなどを最大化 37
  23. 関連の話題 n仮定を緩める・見つける n選択バイアス (Spirtes et al., 1999) n時系列 (Malinsky et

    al., 2018; Hyvarinen et al., 2008) • 時間順を背景知識として使う • 未観測共通原因の難しさは残る n巡回 (Lacerda et al., 2008): 平衡の仮定 n複数集団・非定常 (Tillman et al., 2014; Monti et al., 2019) n 因果探索と因果効果推定の接続 • Hyttinen et al. (2015) • Gradu et al. (2022) n仮定の評価 • Entner (2011); Biza et al. (2022) n統計的信頼性 • Komatsu et al. (2010) n高次元 (p>n) • Wang and Drton (2020) n計算速度 • Matsuda et al., (2022) n変数定義 • Chalupka et al. (2017) n微分方程式モデルと • Bongers et al. (2022) 38 Malinsky and Spirtes (2018)
  24. ノンパラとセミパラ nノンパラ (Pearl 2001; Spirtes 1993) • 関数形や分布に仮定をおかない • 限界

    • 同値類を見つけることが限界 • 「サンプルサイズを増やせば増やすほど推定がよくなる」保証はない (Genin & Mayo-Wilson, 2022) nセミパラ • 関数形や分布に(いくらか)仮定 • 限界の緩和 • 一意に識別可能 or より小さい同値類 (向きが決まる) • サンプルサイズを増やせば推定よくなる保証「も」 (Genin & Mayo-Wilson, 2022) 39
  25. まとめ n統計的因果推論 • 因果グラフが領域知識で描ける場合はかなり成熟 • 適用範囲の広がりや自動化の促進 • 描けない場合のデータによる支援が今後の鍵 n統計的因果探索 •

    領域知識+データでよりよい因果グラフを作成 nセミパラのコードやソフトウェア https://www.shimizulab.org/lingam/lingampapers/software 41
  26. セミパラのソフトウェア nPython package (Ikeuchi, Ide, Zeng, Maeda, Shimizu, 2023) •

    https://github.com/cdt15/lingam MITライセンス nCausalas by SCREEN AS nNode AI by NTT Communications nNTech Predict by neutral nCausal analysis by NEC nノンパラ: pcalg, causal-learn 42