Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データで課題を解決する -因果関係を調べる統計的因果推論-
Search
Shohei SHIMIZU
October 14, 2023
Science
2.1k
5
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
データで課題を解決する -因果関係を調べる統計的因果推論-
理研和光地区一般公開2023
Shohei SHIMIZU
October 14, 2023
More Decks by Shohei SHIMIZU
See All by Shohei SHIMIZU
因果推論と機械学習
sshimizu2006
1
1.2k
AIPシンポジウム 2025年度 成果報告会 「因果推論チーム」
sshimizu2006
3
520
Non-Gaussian, nonlinear causal discovery with hidden variables and application
sshimizu2006
0
130
因果AIへの招待
sshimizu2006
0
1.4k
先端因果推論特別研究チームの研究構想と 人間とAIが協働する自律因果探索の展望
sshimizu2006
3
930
統計的因果探索: 背景知識とデータにより因果仮説を探索する
sshimizu2006
4
1.4k
非ガウス性と非線形性に基づく統計的因果探索
sshimizu2006
0
2.1k
Causal discovery based on non-Gaussianity and nonlinearity
sshimizu2006
0
400
統計的因果探索の方法
sshimizu2006
1
1.7k
Other Decks in Science
See All in Science
生成AIの現状と展望
tagtag
PRO
0
130
CVPR2026_VGGTとその仲間たち
mickey_0226
0
790
コミュニティサイエンスの実践@日本認知科学会2025
hayataka88
0
170
データベース08: 実体関連モデルとは?
trycycle
PRO
0
1.1k
チュートリアル:世界モデル
hf149
0
1.7k
白金鉱業Meetup_Vol.20 効果検証ことはじめ / Introduction to Impact Evaluation
brainpadpr
2
1.9k
(CVPR2026) Back to Basics: Let Denoising Generative Models Denoise
shumpei777
0
130
Conversation is the New Dashboard: 属人性を排除する第4世代BIツールの勢力図
shomaekawa
1
590
ハミルトン・ヤコビ方程式の解の性質と物理的意味
enakai00
0
640
データベース01: データベースを使わない世界
trycycle
PRO
1
1.3k
DMMにおけるABテスト検証設計の工夫
xc6da
1
2k
医療 LLM ベンチマークの現在地:多面的評価 と日本ローカライズ
analokmaus
1
500
Featured
See All Featured
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
280
Designing for humans not robots
tammielis
254
26k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
The Pragmatic Product Professional
lauravandoore
37
7.3k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
Odyssey Design
rkendrick25
PRO
2
690
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
470
Accessibility Awareness
sabderemane
1
140
The Cult of Friendly URLs
andyhume
79
6.9k
Optimising Largest Contentful Paint
csswizardry
37
3.7k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
360
AI: The stuff that nobody shows you
jnunemaker
PRO
8
710
Transcript
データで課題を解決する -因果関係を調べる統計的因果推論- 清水昌平 理化学研究所 革新知能統合研究センター 汎用基盤技術研究グループ 因果推論チーム 理研和光地区一般公開 2023/10/14
統計的因果推論とは n統計的因果推論 • 因果関係についてデータから推測する方法論 • 「何かを変化させて、何か他のものが変化したら」 前者が原因で、後者が結果 n中心的な話題 • ランダム化実験ができなくても、因果を調べられるか?
• どんな条件で? • 実験する前に評価 / 実験環境以外での評価 2
統計的因果推論の出発点 3 Messerli, (2012), New England Journal of Medicine !
" # $ 賞 受 賞 者 ( 数 相関係数: 0.79 チョコレート消費量 n相関があるからと言って 因果関係があるとは限らない n「チョコレート消費量と ノーベル賞受賞者の数に 相関がある」からと言って、 「チョコレート消費量を増やせば ノーベル賞受賞者が増える」 とは限らない
相関関係と因果関係のギャップ 4 チョコ 賞 ? チョコ 賞 or GDP GDP
チョコ 賞 or GDP 複数の因果関係が同じ相関関係を与えうる 賞 未観測共通原因 未観測共通原因 未観測共通原因 ギャップ チョコ 上記のどのケースでも (右のチョコと賞に因果的に関係ないようなケースでも) 相関係数が0.79になり得る
因果推論の手順の例 1. 推定したいものを決める: 因果効果 (介入効果) • チョコから賞への因果効果 2. 領域知識を用いて因果構造を表すグラフを描く 3.
どの変数を分析に含めるかを、(数学的)理論から導く • ここではGDP 4. (もしあれば) その変数も観測し分析に含めて、推定 5 チョコ 賞 GDP 因果グラフ
データ分析をする目的はいろいろ n予測 • チョコ消費量がこのくらいなら ノーベル賞の数はどのくらい? n因果 • チョコ消費量を増やすと (介入) ノーベル賞の数は増える?
n制御 • ノーベル賞受賞者の数を これくらいにするには、 何をどのくらい変えたらよい? 6 Messerli, (2012), New England Journal of Medicine ϊ ồ ϕ ϧ ड ऀ ͷ ૬ؔ νϣίϨʔτফඅྔ
統計的因果推論の 基本的な考え方 7
基本となる概念: 反事実 (反実仮想) nもし◦◦だとしたらどうなる? • 「もしも薬を飲ませたとしたら、治癒するか」 • 「もしも飲まないでもらったとしたら、治癒するか」 8 薬
治癒 治癒せず なし ¹ ゼウス ゼウス(個体)について、薬の治癒への因果効果あり
因果推論の根本問題 (Holland, 1986) n個体における因果は、一般には同定できない • 観測できるのはどちらか一方 9 薬 治癒 ?
なし ¹ ゼウス 薬を飲ませてしまったら、 薬を飲まないでもらった場合にどうなるかは不明
「代わりに」、集団における因果 nもし集団全員に薬を飲ませた場合 nもし集団全員に薬を飲まないでもらった場合 10 薬 治癒の割合 治癒の割合 なし 分析対象の 集団
やはり観測できるのはどちらか一方、しかし工夫が可能 ≠?
ランダムに分けることで模擬 (ランダム化実験) n集団をランダムに2つのグループに分けることで、各グループのメン バーは違うが、集団としては同じ(等質)となる • 男女比、重症の人の割合、…などなど同じ 11 なし 集団 違いは、投薬の有無のみ
治癒の割合 治癒の割合 ? ¹
ランダム化実験しないとき (できないとき) 12
ランダム化実験しないときに困ること n実際の治療では、重症な患者に投薬する傾向がある 13 薬 治癒の 割合 治癒の 割合 なし などなどたくさん
≠? 重症多め 少なめ 投薬の有無以外にも重症度が違う
重症度は共通原因 n重症かで投薬するかが決まり n重症かで治癒するかも決まる n相関関係と因果関係のギャップを生み出す: 交絡要因 n「薬を使うかを何に基づいて決めているか」を考える 14 薬 治癒 重症度
潜在共通原因 誤差 誤差
重症度の⾼低で分ける(層別) n重症の人のみ集める(軽症の人のみ集める)ことで2つのグループ を等質に 15 薬 治癒の 割合 治癒の 割合 なし
などなどたくさん ≠? みな重症 違いは、投薬の有無のみ
各層の結果をマージして、 全体の因果効果を推定 16 n全体の因果効果 n交絡要因を全て分析に含められていれば因果効果 = 重症者の割合 × 重症グループでの因果効果 +
軽症者の割合 × 軽症グループでの因果効果 =𝑝 𝑧 = 1 𝐸 𝑦 = 1|𝑥 = 1, 𝑧 = 1 − 𝐸 𝑦 = 1|𝑥 = 0, 𝑧 = 1 +𝑝 𝑧 = 0 𝐸 𝑦 = 1|𝑥 = 1, 𝑧 = 0 − 𝐸 𝑦 = 1|𝑥 = 0, 𝑧 = 0
交絡要因を選ぶよりどころ: 因果グラフ n領域知識で描く nデータによる⽀援: 因果探索 17 薬 治癒 重症度 潜在共通原因
誤差 誤差
統計的因果探索 nデータを用いて因果グラフを推測するための方法論 n事前知識以外の手段 .BFEBBOE4IJNJ[V Ծఆ ਪଌ • ؔܗ
• • ະ؍ଌڞ௨ݪҼͷ༗ແ • ඇ८ճ PS८ճ ͳͲ σʔλ ҼՌάϥϑ
因果探索のアイデア 1. 因果モデルに仮定をおく • 非巡回 • 共通原因は観測済み 2. 仮定を満たす構造の中で、データと(最も)つじつまの合うグラフを選ぶ 19
「データでxとyが独立」なら、一番右の(c)を選ぶ (a)と(b)の区別がつかない(一意に決まらない): ここが理論限界 3つの候補 (a) (b) (c) x y x y x y
“少し”追加の仮定を入れると n関数形や分布に仮定を入れる: LiNGAM (Shimizu et al., 2006) • 線形性 •
非ガウス性 n非線形でも (Hoyer et al., 2008; Zhang et al., 2009; Peters et al., 2014; Khemakhem et al., 2021) • 𝑥! = 𝑓! (par(𝑥! )) + 𝑒! • 𝑥! = 𝑔! "#(𝑓! (par(𝑥! )) + 𝑒! ) n𝑥! の親と誤差𝑒! の独立性も利用 20 𝑥! = ∑ $! の親 𝑏!% 𝑥% +𝑒! 3つの候補から一つに絞れる (a) (b) (c) x y x y x y
因果探索の適用例: ターゲットの原因候補の探索 https://www.shimizulab.org/lingam/lingampapers/applications-and-tailor-made-methods n生命科学 (Maathuis et al., 2010) n医学 (Kotoku
et al., 2020) n化学 (Campomanes et al., 2014) n材料 (Nelson et al., 2021) n気候学 (Liu et al., 2020) n経済学 (Moneta et al., 2013) n心理学 (von Eye et al., 2012) n政策 (高山ら, 2021) nネットワークデータ (Jarry et al., 2021) 21 Kotoku et al. (2020) Moneta et al. (2013) OpInc.gr(t) Empl.gr(t) Sales.gr(t) R&D.gr(t) Empl.gr(t+1) Sales.gr(t+1) R&D(.grt+1) OpInc.gr(t+1) Empl.gr(t+2) Sales.gr(t+2) R&D.gr(t+2) OpInc.gr(t+2)
Code packageやノーコード分析ツール nPython package (Ikeuchi, Ide, Zeng, Maeda, Shimizu, 2023)
• https://github.com/cdt15/lingam MITライセンス nTetrad, pcalg, causal-learn, lingam, Salesforce CausalAI, gcastle n商用ソフト • Causalas by SCREEN AS • Node AI by NTT Communications • NTech Predict by neutral • Causal analysis by NEC 22
まとめ n統計的因果推論 • 因果グラフが領域知識で描ける場合はかなり成熟 • 適用範囲の広がり • 描けない場合のデータによる支援が今後の鍵 n統計的因果探索 •
領域知識+データでよりよい因果グラフを作成 • 仮定を緩める • 理論限界を調べる • 事例+ 23 清⽔ (2017) Shimizu (2017)