Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的因果探索: 背景知識とデータにより因果仮説を探索する
Search
Shohei SHIMIZU
January 22, 2025
Science
1.4k
4
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
統計的因果探索: 背景知識とデータにより因果仮説を探索する
第15回情報系研究会
Shohei SHIMIZU
January 22, 2025
More Decks by Shohei SHIMIZU
See All by Shohei SHIMIZU
因果推論と機械学習
sshimizu2006
1
1.2k
AIPシンポジウム 2025年度 成果報告会 「因果推論チーム」
sshimizu2006
3
530
Non-Gaussian, nonlinear causal discovery with hidden variables and application
sshimizu2006
0
130
因果AIへの招待
sshimizu2006
0
1.4k
先端因果推論特別研究チームの研究構想と 人間とAIが協働する自律因果探索の展望
sshimizu2006
3
940
非ガウス性と非線形性に基づく統計的因果探索
sshimizu2006
0
2.1k
Causal discovery based on non-Gaussianity and nonlinearity
sshimizu2006
0
400
統計的因果探索の方法
sshimizu2006
1
1.7k
Non-Gaussian methods for causal discovery
sshimizu2006
0
500
Other Decks in Science
See All in Science
機械学習 - pandas入門
trycycle
PRO
0
620
大黒市で発生した大規模インシデント の ポストモーテムから読み解く、 記憶媒体消去の大切さ
shucho0103
0
190
(2025) Balade en cyclotomie
mansuy
0
620
Testing the Longevity Bottleneck Hypothesis
chinson03
0
320
AI(人工知能)の過去・現在・未来 ~AIは人類を越えるのか~
tagtag
PRO
0
100
生成AIの現状と展望
tagtag
PRO
0
130
AkarengaLT vol.41
hashimoto_kei
1
140
AIを用いた PID制御で部屋 の温度制御をしてみた
nearme_tech
PRO
0
150
検索と推論タスクに関する論文の紹介
ynakano
1
230
医療 LLM ベンチマークの現在地:多面的評価 と日本ローカライズ
analokmaus
1
510
HDC tutorial
michielstock
2
710
データベース04: SQL (1/3) 単純質問 & 集約演算
trycycle
PRO
0
1.5k
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4.1k
Facilitating Awesome Meetings
lara
57
7k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
160
Paper Plane (Part 1)
katiecoart
PRO
0
8.9k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
310
Site-Speed That Sticks
csswizardry
13
1.2k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
360
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
730
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
200
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
610
Joys of Absence: A Defence of Solitary Play
codingconduct
1
390
Transcript
統計的因果探索: 背景知識とデータにより因果仮説を探索する 清水 昌平 滋賀大学 データサイエンス学系 理化学研究所 革新知能統合研究センター 清水, 統計的因果探索,
講談社, 2017 Shimizu, Statistical Causal Discovery: LiNGAM approach, Springer, 2022
◼因果関係についてデータから推測する方法論 ◼「何かを変化させて、何か他のものが変化したら」 前者が原因で、後者が結果 ◼中心的な話題 • ランダム化実験ができなくても、因果を調べられるか? 2 統計的因果推論とは
ここでの因果とは?: 反事実 (反実仮想) ◼もし◦◦だとしたらどうなる? • もし薬を飲ませた場合と飲ませない場合を比較 • 治癒の割合に差があれば、薬から治癒に因果あり 3 薬
治癒の割合 治癒の割合 なし 分析対象の 集団 観測できるのはどちらか一方、しかし工夫することで推定可能 ≠?
ランダム化実験 ◼分析対象の集団をランダムにふたつに分ける 4 薬 治癒の割合 治癒の割合 なし などなど たくさん 違いは、薬の有無のみ
≠?
ランダム化実験しない時に起きる問題 ◼「重症度に着目して薬を出すか決めている」とする 5 薬 治癒の割合 治癒の割合 なし などなど たくさん ≠?
重症多め 少なめ 薬の有無以外にも重症度が違う: 交絡がある・重症度は交絡変数
ランダム化実験しない時の対処法 ◼重症度(交絡変数)の高低で分ける(層別/調整) 6 薬 治癒の割合 治癒の割合 なし などなど たくさん ≠?
みな重症 違いは、薬の有無のみ
◼背景知識を基に交絡変数間の関係を図示: 因果グラフ ◼グラフ構造を基にどの変数で調整すべきかを判定 • バックドア基準 (Pearl, 1993) など • 十分条件の例:
xの親をすべて観測して調整 • できない場合もある 7 交絡変数の見つけ方 x:薬 y:治癒 z: 重症度 交絡変数 (共通原因)
因果グラフを描く「支援」 統計的因果探索 ◼データを用いて因果グラフを推測するための方法論 ◼背景知識以外の手段 (定説がない場合) 8 Maeda and Shimizu (2020)
仮定(+背景知識) 推測 • 未観測交絡変数の有無 • 非巡回 or 巡回 • 関数形 • 分布など データ 因果グラフ 探索スペースを決める データと照らし合わせる 残った候補
◼構造的因果モデル (Pearl, 2001) ◼このモデルで仮定を表現し、 その中でデータとつじつまの合うモデルを探す 9 因果探索のフレームワーク (Spirtes+2001) x3 x1
e3 e1 x2 e2 𝑥𝑖 = 𝑓𝑖 (𝑥𝑖 の親, 𝑒𝑖 ) 誤差変数 因果グラフ
因果探索の基本アイデア 1. 因果モデルに仮定をおく • 非巡回有向グラフ • 未観測の交絡変数(共通原因)なし 2. 仮定を満たすグラフの中で、データとつじつまの合うグラフ を残す
10 「データでxとyが独立」なら、(c)を残す 「データでxとyが従属」なら、 (a)と(b)を残す 3つの候補 (a) (b) (c) x y x y x y (a)と(b)の区別はつかない(どんなにサンプルサイズを増やしても): 同値類
◼識別性: どんな仮定の下で どこまで因果グラフを復元できるか ◼例えば、さらに「未観測交絡変数の存在」を許すと 11 因果探索の中心的話題: 識別性 「データでxとyが独立」なら、(c)を残す 「データでxとyが従属」なら、 (c)以外を残す:
同値類 “6”つの候補 (a) (b) (c) x y x y x y (d) (e) (f) x y x y x y U U U
関数形や分布に仮定を入れる ◼非巡回有向グラフ・未観測交絡変数なし ◼線形性+非ガウス連続分布: LiNGAM (Shimizu+2006) ◼一意に因果グラフを推定可能 ◼𝑥𝑖 の親と誤差𝑒𝑖 の独立性も利用 12
𝑥𝑖 = σ 𝑥𝑖 の親 𝑏𝑖𝑗 𝑥𝑗 +𝑒𝑖 3つの候補から一つに絞れる (a) (b) (c) x y x y x y
◼行列形式で書き直すとICA ◼独立成分分析をかけて 混合行列のどこがゼロ非ゼロかチェック 13 独立成分分析(ICA)との関係 𝑥1 𝑥2 𝑒1 𝑒2 𝑥1
= 𝑒1 𝑥2 = 𝑏21 𝑥1 + 𝑒2 𝑥1 𝑥2 = 1 0 𝑏21 1 𝑒1 𝑒2 𝑥1 𝑥2 𝑒1 𝑒2 𝑥1 = 𝑏12 𝑥2 + 𝑒1 𝑥2 = 𝑒2 𝑥1 𝑥2 = 1 𝑏12 0 1 𝑒1 𝑒2
◼条件付き独立性の判定を検定で ◼情報量基準で探索 • ただし、一つ選ぶというより同値類を列挙 ◼連続最適化 • DAG制約項 (Zheng+2020) • 未観測交絡変数を許す“DAG制約項”
(Bhattacharya+2021) 14 推定法
◼時間情報は背景知識として利用 (e.g., Hyvarinen+2010, Maeda+2024) ◼ここまでの因果探索は同時点(瞬時)のモデルとして利用 • 巡回モデル (Richardson1996, Lacerda+2008) 15
時間情報も使う 𝑥2 (𝑡 − 1) 𝑥1 (𝑡 − 1) 𝑥𝑖 (𝑡) = 𝑗,𝜏: 𝑥𝑖 の親 𝑓 𝑖𝑗 𝜏 (𝑥𝑗 𝑡 − 𝜏 ) + 𝑘, 𝜔: 𝑥𝑖 の親 𝑔 𝑖𝑘 𝜔 (𝑢𝑘 (𝑡 − 𝜔)) + 𝑒𝑖 (𝑡) 向き・交絡の「存在」 が識別可能 𝑥2 (𝑡) 𝑥1 (𝑡)
◼LiNGAM Python package (Ikeuchi+2023) • Github: https://github.com/cdt15/lingam ◼Causal-learn (Zheng+2024) •
Github: https://github.com/py-why/causal-learn ◼Tigramite • Github: https://github.com/jakobrunge/tigramite ◼Causalas • プログラム書かずに クリックで 16 ソフトウェア
◼「保健指導による介入」が「翌年度以降の健診結果」 に与える影響 (Okuda+in prep.) ◼全国規模の保険者データベース ◼先行研究: 回帰不連続デザイン (Fukuma+2020) 17 適用例:
予防医学 健康アウトカム 翌年度 翌々年度 翌々年度 BMI -0.206 [-0.215, -0.196] -0.163 [-0.175, -0.153] -0.144 [-0.157, -0.130] 収縮期血圧 -0.293 [-0.399, -0.180] -0.040 [-0.168, 0.071] -0.030 [-0.149, 0.082] ヘモグロビンA1c -0.035 [-0.039, -0.032] -0.031 [-0.035, -0.027] -0.031 [-0.035, -0.026] LDLコレステロール 0.582 [0.423, 0.751] 0.636 [0.456, 0.804] 0.459 [0.238, 0.661] 背景知識+データ
◼各政策要因による博士課程進学者数への 因果メカニズムの定量的理解へ (高山+2024: 研究イノベーション学会) ◼公開データを基に大学別のデータセットを構築 • 国立86大学 x 11か年度 18
適用例: 政策研究 変数名 内容 M_graduate 修士課程等修了者数 D_entrance 博士課程進学者数 Ph.D_grauduate 博士課程修了者数 PosDoc 博士課程修了直後のポスドク就職者数 AcaPos 博士課程修了直後の大学教員就職者数 Basic_income 運営費交付金収益額 Students_per_teacher 教員一人当たり学生数 DC1 DC1採択者数 【重点支援3の16大学】
大規模言語モデル (LLM) ◼Causal parrots (Zečević+2023) : オウム返し ◼LLMによる背景知識抽出 統計的因果探索 (Takayama+2024)
◼Causal-Copilot (https://github.com/Lancelot39/Causal-Copilot) • アルゴリズムの選択を支援 19 リークのない (LLMが知らない) 健康診断データで評価
◼因果探索は背景知識とデータから因果グラフを推測 • 因果グラフは因果モデルの核 • 因果の大きさなど因果的量の計算に必要 ◼参考: 変数の定義を支援 • Abstraction (e.g.,
Chalupka+2017; Xia+2024) • Causal representation learning (e.g., Schölkopf+2021; Morioka+23) 20 まとめ Chalupka+2017 Schölkopf+2021 背景知識 + データ Maeda and Shimizu (2020)