統計的因果探索: 背景知識とデータにより因果仮説を探索する

統計的因果探索: 背景知識とデータにより因果仮説を探索する清水昌平滋賀大学データサイエンス学系理化学研究所革新知能統合研究センター清水, 統計的因果探索,
講談社, 2017 Shimizu, Statistical Causal Discovery: LiNGAM approach, Springer, 2022

◼因果関係についてデータから推測する方法論 ◼「何かを変化させて、何か他のものが変化したら」前者が原因で、後者が結果 ◼中心的な話題 • ランダム化実験ができなくても、因果を調べられるか？ 2 統計的因果推論とは

ここでの因果とは？: 反事実 (反実仮想) ◼もし◦◦だとしたらどうなる？ • もし薬を飲ませた場合と飲ませない場合を比較 • 治癒の割合に差があれば、薬から治癒に因果あり 3 薬
治癒の割合治癒の割合なし分析対象の集団観測できるのはどちらか一方、しかし工夫することで推定可能 ≠?

ランダム化実験 ◼分析対象の集団をランダムにふたつに分ける 4 薬治癒の割合治癒の割合なしなどなどたくさん違いは、薬の有無のみ
≠?

ランダム化実験しない時に起きる問題 ◼「重症度に着目して薬を出すか決めている」とする 5 薬治癒の割合治癒の割合なしなどなどたくさん ≠?
重症多め少なめ薬の有無以外にも重症度が違う: 交絡がある・重症度は交絡変数

ランダム化実験しない時の対処法 ◼重症度(交絡変数)の高低で分ける(層別/調整) 6 薬治癒の割合治癒の割合なしなどなどたくさん ≠?
みな重症違いは、薬の有無のみ

◼背景知識を基に交絡変数間の関係を図示: 因果グラフ ◼グラフ構造を基にどの変数で調整すべきかを判定 • バックドア基準 (Pearl, 1993) など • 十分条件の例:
xの親をすべて観測して調整 • できない場合もある 7 交絡変数の見つけ方 x:薬 y:治癒 z: 重症度交絡変数 (共通原因)

因果グラフを描く「支援」統計的因果探索 ◼データを用いて因果グラフを推測するための方法論 ◼背景知識以外の手段 (定説がない場合) 8 Maeda and Shimizu (2020)
仮定(+背景知識) 推測 • 未観測交絡変数の有無 • 非巡回 or 巡回 • 関数形 • 分布などデータ因果グラフ探索スペースを決めるデータと照らし合わせる残った候補

◼構造的因果モデル (Pearl, 2001) ◼このモデルで仮定を表現し、その中でデータとつじつまの合うモデルを探す 9 因果探索のフレームワーク (Spirtes+2001) x3 x1
e3 e1 x2 e2 𝑥𝑖 = 𝑓𝑖 (𝑥𝑖 の親, 𝑒𝑖 ) 誤差変数因果グラフ

因果探索の基本アイデア 1. 因果モデルに仮定をおく • 非巡回有向グラフ • 未観測の交絡変数(共通原因)なし 2. 仮定を満たすグラフの中で、データとつじつまの合うグラフを残す
10 「データでxとyが独立」なら、(c)を残す「データでxとyが従属」なら、 (a)と(b)を残す 3つの候補 (a) (b) (c) x y x y x y (a)と(b)の区別はつかない(どんなにサンプルサイズを増やしても): 同値類

◼識別性: どんな仮定の下でどこまで因果グラフを復元できるか ◼例えば、さらに「未観測交絡変数の存在」を許すと 11 因果探索の中心的話題: 識別性「データでxとyが独立」なら、(c)を残す「データでxとyが従属」なら、 (c)以外を残す:
同値類 “6”つの候補 (a) (b) (c) x y x y x y (d) (e) (f) x y x y x y U U U

関数形や分布に仮定を入れる ◼非巡回有向グラフ・未観測交絡変数なし ◼線形性+非ガウス連続分布: LiNGAM (Shimizu+2006) ◼一意に因果グラフを推定可能 ◼𝑥𝑖 の親と誤差𝑒𝑖 の独立性も利用 12
𝑥𝑖 = σ 𝑥𝑖 の親 𝑏𝑖𝑗 𝑥𝑗 +𝑒𝑖 3つの候補から一つに絞れる (a) (b) (c) x y x y x y

◼行列形式で書き直すとICA ◼独立成分分析をかけて混合行列のどこがゼロ非ゼロかチェック 13 独立成分分析(ICA)との関係 𝑥1 𝑥2 𝑒1 𝑒2 𝑥1
= 𝑒1 𝑥2 = 𝑏21 𝑥1 + 𝑒2 𝑥1 𝑥2 = 1 0 𝑏21 1 𝑒1 𝑒2 𝑥1 𝑥2 𝑒1 𝑒2 𝑥1 = 𝑏12 𝑥2 + 𝑒1 𝑥2 = 𝑒2 𝑥1 𝑥2 = 1 𝑏12 0 1 𝑒1 𝑒2

◼条件付き独立性の判定を検定で ◼情報量基準で探索 • ただし、一つ選ぶというより同値類を列挙 ◼連続最適化 • DAG制約項 (Zheng+2020) • 未観測交絡変数を許す“DAG制約項”
(Bhattacharya+2021) 14 推定法

◼時間情報は背景知識として利用 (e.g., Hyvarinen+2010, Maeda+2024) ◼ここまでの因果探索は同時点(瞬時)のモデルとして利用 • 巡回モデル (Richardson1996, Lacerda+2008) 15
時間情報も使う 𝑥2 (𝑡 − 1) 𝑥1 (𝑡 − 1) 𝑥𝑖 (𝑡) = ෍ 𝑗,𝜏: 𝑥𝑖 の親 𝑓 𝑖𝑗 𝜏 (𝑥𝑗 𝑡 − 𝜏 ) + ෍ 𝑘, 𝜔: 𝑥𝑖 の親 𝑔 𝑖𝑘 𝜔 (𝑢𝑘 (𝑡 − 𝜔)) + 𝑒𝑖 (𝑡) 向き・交絡の「存在」が識別可能 𝑥2 (𝑡) 𝑥1 (𝑡)

◼LiNGAM Python package (Ikeuchi+2023) • Github: https://github.com/cdt15/lingam ◼Causal-learn (Zheng+2024) •
Github: https://github.com/py-why/causal-learn ◼Tigramite • Github: https://github.com/jakobrunge/tigramite ◼Causalas • プログラム書かずにクリックで 16 ソフトウェア

◼「保健指導による介入」が「翌年度以降の健診結果」に与える影響 (Okuda+in prep.) ◼全国規模の保険者データベース ◼先行研究: 回帰不連続デザイン (Fukuma+2020) 17 適用例:
予防医学健康アウトカム翌年度翌々年度翌々年度 BMI -0.206 [-0.215, -0.196] -0.163 [-0.175, -0.153] -0.144 [-0.157, -0.130] 収縮期血圧 -0.293 [-0.399, -0.180] -0.040 [-0.168, 0.071] -0.030 [-0.149, 0.082] ヘモグロビンA1c -0.035 [-0.039, -0.032] -0.031 [-0.035, -0.027] -0.031 [-0.035, -0.026] LDLコレステロール 0.582 [0.423, 0.751] 0.636 [0.456, 0.804] 0.459 [0.238, 0.661] 背景知識+データ

◼各政策要因による博士課程進学者数への因果メカニズムの定量的理解へ (高山+2024: 研究イノベーション学会） ◼公開データを基に大学別のデータセットを構築 • 国立86大学 x 11か年度 18
適用例: 政策研究変数名内容 M_graduate 修士課程等修了者数 D_entrance 博士課程進学者数 Ph.D_grauduate 博士課程修了者数 PosDoc 博士課程修了直後のポスドク就職者数 AcaPos 博士課程修了直後の大学教員就職者数 Basic_income 運営費交付金収益額 Students_per_teacher 教員一人当たり学生数 DC1 DC1採択者数【重点支援3の16大学】

大規模言語モデル (LLM) ◼Causal parrots (Zečević+2023) : オウム返し ◼LLMによる背景知識抽出統計的因果探索 (Takayama+2024)
◼Causal-Copilot (https://github.com/Lancelot39/Causal-Copilot) • アルゴリズムの選択を支援 19 リークのない (LLMが知らない) 健康診断データで評価

◼因果探索は背景知識とデータから因果グラフを推測 • 因果グラフは因果モデルの核 • 因果の大きさなど因果的量の計算に必要 ◼参考: 変数の定義を支援 • Abstraction (e.g.,
Chalupka+2017; Xia+2024) • Causal representation learning (e.g., Schölkopf+2021; Morioka+23) 20 まとめ Chalupka+2017 Schölkopf+2021 背景知識 + データ Maeda and Shimizu (2020)

統計的因果探索: 背景知識とデータにより因果仮説を探索する

統計的因果探索: 背景知識とデータにより因果仮説を探索する

Shohei SHIMIZU

More Decks by Shohei SHIMIZU

Other Decks in Science

Featured

Transcript

統計的因果探索: 背景知識とデータにより因果仮説を探索する清水昌平滋賀大学データサイエンス学系理化学研究所革新知能統合研究センター清水, 統計的因果探索,

ここでの因果とは？: 反事実 (反実仮想) ◼もし◦◦だとしたらどうなる？ • もし薬を飲ませた場合と飲ませない場合を比較 • 治癒の割合に差があれば、薬から治癒に因果あり 3 薬

ランダム化実験 ◼分析対象の集団をランダムにふたつに分ける 4 薬治癒の割合治癒の割合なしなどなどたくさん違いは、薬の有無のみ

ランダム化実験しない時に起きる問題 ◼「重症度に着目して薬を出すか決めている」とする 5 薬治癒の割合治癒の割合なしなどなどたくさん ≠?

ランダム化実験しない時の対処法 ◼重症度(交絡変数)の高低で分ける(層別/調整) 6 薬治癒の割合治癒の割合なしなどなどたくさん ≠?

◼背景知識を基に交絡変数間の関係を図示: 因果グラフ ◼グラフ構造を基にどの変数で調整すべきかを判定 • バックドア基準 (Pearl, 1993) など • 十分条件の例:

因果グラフを描く「支援」統計的因果探索 ◼データを用いて因果グラフを推測するための方法論 ◼背景知識以外の手段 (定説がない場合) 8 Maeda and Shimizu (2020)

◼構造的因果モデル (Pearl, 2001) ◼このモデルで仮定を表現し、その中でデータとつじつまの合うモデルを探す 9 因果探索のフレームワーク (Spirtes+2001) x3 x1

因果探索の基本アイデア 1. 因果モデルに仮定をおく • 非巡回有向グラフ • 未観測の交絡変数(共通原因)なし 2. 仮定を満たすグラフの中で、データとつじつまの合うグラフを残す

関数形や分布に仮定を入れる ◼非巡回有向グラフ・未観測交絡変数なし ◼線形性+非ガウス連続分布: LiNGAM (Shimizu+2006) ◼一意に因果グラフを推定可能 ◼𝑥𝑖 の親と誤差𝑒𝑖 の独立性も利用 12

◼行列形式で書き直すとICA ◼独立成分分析をかけて混合行列のどこがゼロ非ゼロかチェック 13 独立成分分析(ICA)との関係 𝑥1 𝑥2 𝑒1 𝑒2 𝑥1

◼条件付き独立性の判定を検定で ◼情報量基準で探索 • ただし、一つ選ぶというより同値類を列挙 ◼連続最適化 • DAG制約項 (Zheng+2020) • 未観測交絡変数を許す“DAG制約項”

◼時間情報は背景知識として利用 (e.g., Hyvarinen+2010, Maeda+2024) ◼ここまでの因果探索は同時点(瞬時)のモデルとして利用 • 巡回モデル (Richardson1996, Lacerda+2008) 15

◼LiNGAM Python package (Ikeuchi+2023) • Github: https://github.com/cdt15/lingam ◼Causal-learn (Zheng+2024) •

◼「保健指導による介入」が「翌年度以降の健診結果」に与える影響 (Okuda+in prep.) ◼全国規模の保険者データベース ◼先行研究: 回帰不連続デザイン (Fukuma+2020) 17 適用例:

◼各政策要因による博士課程進学者数への因果メカニズムの定量的理解へ (高山+2024: 研究イノベーション学会） ◼公開データを基に大学別のデータセットを構築 • 国立86大学 x 11か年度 18

大規模言語モデル (LLM) ◼Causal parrots (Zečević+2023) : オウム返し ◼LLMによる背景知識抽出統計的因果探索 (Takayama+2024)

◼因果探索は背景知識とデータから因果グラフを推測 • 因果グラフは因果モデルの核 • 因果の大きさなど因果的量の計算に必要 ◼参考: 変数の定義を支援 • Abstraction (e.g.,