Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

はじめてのバックドア基準:あるいは、重回帰分析の偏回帰係数を因果効果の推定値として解釈してよい...

 はじめてのバックドア基準:あるいは、重回帰分析の偏回帰係数を因果効果の推定値として解釈してよいのか問題

2024年7月2日に国立環境研究所で行ったセミナーのスライドの増補改訂版です。統計的因果推論における最重要概念の1つであるバックドア基準についての解説スライドです。

takehikoihayashi

July 10, 2024
Tweet

More Decks by takehikoihayashi

Other Decks in Science

Transcript

  1. 自己紹介 (バックグラウンド) 専門:環境データ分析、因果推論、Science-Policy Interface 国立環境研究所/社会システム領域/経済・政策研究室 現在の主な研究内容 • 化学物質や水銀などに対する管理政策の政策効果の分析 • 農薬が生態系に与えている影響の因果効果の分析

    • エビデンスの政策利用を考慮する際の検討枠組みの開発 • 環境問題に対する対話・コミュニケーション活動 本日は、統計的因果推論における最重要概念の1つである 「バックドア基準」についてお話します
  2. 本日(はじめてのバックドア基準)の目次 1. 前置きパート1:相関と因果はなぜズレるのか 2. 前置きパート2:「介入」の観点からの相関と因果の違い 3. バックドアパスをざっくりとイメージしよう 4. まずは2変量(X,Y)から考える 4.

    3変量(X,Y,Z)その1:分岐点とバックドアパス 5. 3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:例題と補遺
  3. 相関と因果のズレ|品種の混在の影響を見る 2品種が混在すると必ずバイアスが生じる? 「品種の比率」が処理グループ間で同じときにはバイアスが生じない! 肥料X 糖 度 Y なし あり 糖

    度 Y 糖 度 Y -0.5 +4.6 +2.1 肥料X なし あり 肥料X なし あり ぺこ 40個 すまいる 10個 ぺこ 10個 すまいる 40個 ぺこ 25個 すまいる 25個 ぺこ 25個 すまいる 25個 ぺこ 10個 すまいる 40個 ぺこ 40個 すまいる 10個
  4. 相関と因果のズレ|対処法の例 層別解析により処理グループ間で特性を揃える 層別化→特性が揃う→バイアスが消える 「 すまいる」だけで 層別解析 「 ぺこ」だけで 層別解析 肥料X

    糖 度 Y なし あり 肥料X 糖 度 Y なし あり 肥料X 糖 度 Y なし あり +4.6 +2.3 +2.0 ぺこ 10個 すまいる 40個 ぺこ 40個 すまいる 10個
  5. 本日(はじめてのバックドア基準)の目次 1. 前置きパート1:相関と因果はなぜズレるのか 2. 前置きパート2:「介入」の観点からの相関と因果の違い 3. バックドアパスをざっくりとイメージしよう 4. まずは2変量(X,Y)から考える 4.

    3変量(X,Y,Z)その1:分岐点とバックドアパス 5. 3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:例題と補遺
  6. 介入の観点から|相関と因果の違い 散布図上の相関関係からの素朴な予測や期待と因果効果 (介入効果)がズレることがある ؀ڥԚછ෺࣭ͷՏ઒தೱ౓9 ఈ ੜ ࠛ ஬ ͷ छ

    ਺ : p < 0.001 「Xが小さいとき、Yは大きい」 (=相関関係がある)とほぼ確実に言える 「Xを小さくすると、Yは大きくなる」 (=因果関係がある)と言えるか?
  7. 目的の 分類 やりたいことの内容 事例のイメージ (大学の留年の例で) 理念的な理想を なす解析法のイ メージ モデル選択の 理論的基準の例

    しばしば 現実的な 解析法 予測 現在得られている情報から、 将来/未知の値/状況を予測 したい 多数の変数の情報から、留年リスク の高い学生を見つけたい (→その後の支援につなげるなど) 機械学習 AICなど予測能力 の指標 重回帰分析! 説明・記述 要素間の関連性を説明したい なぜ学生が留年するかを説明したい (→要因を探索し理解/対策に繋げたい) フルスタックの 構造方程式 (含む因子分析等) Bayes Factorな どの適合性の指標 重回帰分析! 因果・介入 の効果推定 (制御) ある要因Xに介入したときの、 要因Yに及ぼす効果を知りた い 特定のプログラムの導入が留年を防 止する効果を知りたい (→制御法の効果を知りたい) ランダム化比較 試験 バックドア基準・無 視可能性などの 識別可能性の指標 重回帰分析! 異なる分野で(表面上同じ手法が)違う目的や基準で運用されていることも 推定の再現性やコミュニケーション上の混乱の原因の1つ そもそも論:データ分析の異なる目的 3つの目的(*排反ではない)と対応する解析法・基準のイメージ 今日はここの話をします
  8. 介入の観点から|相関と因果の違い p(Y|X=小さい) Xが小さいときのYの計算 p(Y|X=do(小さい)) Xを小さくしたときのYの計算 因果の問題 相関の問題 いうなればp(Y|see(X=小さい)) なぜズレるの? 交絡のせい!

    内生性のせい! 一歩込み入った議論をする際に判断に迷うことがある 今日の 目標 「バックドアパスが開いているせい」 「バックドア基準が満たされていないせい」 という説明の仕方・概念を理解する
  9. 補足|バックドア基準は「何について」の話? 統計的因果推論に関する議論のレイヤー (1) そもそもの解析の目的についての議論 (2)因果効果の統計的推定の際に満たされるべき理論的条件に ついての議論 (3) 因果効果の統計的推定の際に適用可能な解析手法に ついての議論 e.g.,

    条件付き交換可能性・無視可能性 e.g., 傾向スコアマッチング、差の差分析 異なるレイヤーの議論を混ぜると混乱のもと e.g., 説明/予測/因果効果推定のどれがしたいのか? バックドア基準は(2)の「理論的条件」の話
  10. (*補足|非初学者向けの説明ver.) バックドア基準は上式が成り立つ際に含まれるべき共変量Zの セット(上式の成立条件)を示す 処置Xについて以下の無視可能性/交換可能性が成立しているとき バイアスなく因果効果の推定が可能 𝑌! 𝑋| 𝑍 ⊥ for

    all X=x 理論的条件としてのバックドア基準の意義 つまり、因果効果の識別のための変数選択の基準として使える 共変量 結果変数の 潜在結果 処置 ⊥ 共変量Zのセットで条件付けたとき、処置と潜在結果が独立
  11. 本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.

    3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:事例と補遺
  12. *用語説明|DAGとは? 非巡回有向グラフ DAG自体は非常に広いクラスのモデルを表現しうる。たとえば、原理的には、時系 列的なsequentialな数値シミュレーションを書ける系はDAGの形で描ける X Y “親” “子” “祖先” “子孫”

    (Directed Acyclic Graph; DAG) 𝑎!"# 𝑎! 𝑎!$# 𝑌!"# 𝑌! 𝑌!$# 状態空間モデルの例 関数の入出力関係を表す 構造方程式の 視覚的表現方法の1つ 単なるお絵かきというよりも これ自体が「数理モデリング」の一種である と捉えていただくとよいかも
  13. ざっくりとした説明|バックドアパスとは? 「バックドアパス」=『処理Xと結果Yの上流側にある 両者に影響を与える流れ』 X Y Z1 Z2 (X→Yの) バックドアパス ではない!

    Xそのものを通してYへ繋がる流れはノーカウント あくまで”裏口ドア”からのパスを考える 上流側にある「Z1」に インクをぶちまけても Xにしか到達しない (=両者には影響を与えない)
  14. 本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.

    3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:事例と補遺
  15. まずは2変量から考える|因果構造と"向き" 説明の単純化のため線形方程式の例で考える X Y Y=βX+γ+ε Y X YがXの上流のとき, β≠「X→Yの介入効果」 たとえ同一のデータであっても,

    背景にある因果構造(生成メカニズム) によって因果効果は異なる 警官の数 犯罪数 → 因果効果の話をする上では、ドメイン知識が本質的に重要
  16. 本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.

    3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:事例と補遺
  17. 3変量その1 | 3変量で学ぶ重要パターン 共変量Zの重要3パターン X Y Z Zが分岐点 X Y

    Z Zが合流点 X Z Y Zが中間点 『分岐経路』 『合流経路』 『連鎖経路』 Zをモデルに追加することの意義がそれぞれ異なる
  18. 3変量その1 |バックドアパスの何が問題? Zの変動がXとYの両方に影響を与えてしまう X Y Z X Y Zの変動によりX-Y間に "シンクロ"が生じる

    Zが大 Zが小 (X→Yの) バックドアパス Zの変動によるシンクロが”疑似相関”(交絡)を生み X→Yの介入効果の推定にバイアスをもたらす 非因果的 連関
  19. 3変量その1 |バックドアパスの何が問題? 広島県のあるおじいさん(Yさん)と林の夜の機嫌の仮想例 林の夜の機嫌 Y さ ん の 夜 の

    機 嫌 過去も未来もお互いのことを全く知らない Yさんと林のあいだで機嫌に相関が!? 林の夜の機嫌 Yさんの 夜の機嫌 広島カープの その日の勝敗 勝った日 負けた日 ドメイン知識がないときに、こうした交絡(疑似相関)による影響を 見抜くのはなかなか難しい → 因果効果の話をする上では、ドメイン知識が本質的に重要(再)
  20. 3変量その1 |バックドアパスの何が問題? 参考:バックドアパスがない場合の例 X Y Z X Y Zの変動でX-Y間に “シンクロ”は生じない

    Zが大 Zが小 バックドアパスがないとき、Zの変動はバイアス・擬似相関の 原因とならない
  21. (再掲) 3変量その1 |バックドアパスの何が問題? Zの変動がXとYの両方に影響を与えてしまう X Y Z X Y Zの変動によりX-Y間に

    "シンクロ"が生じる Zが大 Zが小 (X→Yの) バックドアパス Zの変動によるシンクロが”疑似相関”(交絡)を生み X→Yの介入効果の推定にバイアスをもたらす 非因果的 連関
  22. 3変量その1 |バックドアパスが”閉じる”とは? バックドアパスが”閉じる”=バックドアパス上の変数を ”固定”する X Y Z Zを“固定”する バックドアパスが”閉じ” 交絡の影響が消える

    シンクロを生む流れが “ブロック”される Zで層別化して解析 重回帰分析の共変量としてZをモデルに追加 “固定”= 条件付けconditioning の手法の例 ・ ・
  23. 3変量その1 |バックドアパスが”閉じる”とは? 補足:重回帰による“固定”の例 55 Z:性別 X:ゲーム 時間 Y:身長 *今後、切片と誤差項は表記の単純化のため省略します 身長

    = β ゲーム時間+γ性別 "性別"がモデルに 追加されているとき "ゲーム時間"の偏回帰係数は, 「"性別"を固定したときの "ゲーム時間"が1単位変化したときの "身長"の変化量」を意味する Zが分岐点のとき、Zを加えた重回帰モデルにおける Xの偏回帰係数の値は「X→Yの因果効果」として素直に解釈してよい! 一般化すると、すなわち X, Y, Zの3変量のケースにおいて: "シンクロ" を遮断
  24. 3変量その1 |バックドアパスが”閉じる”とは? X Y Z    X Y

    Z " 分岐点Zをモデルに 加えない場合 分岐点Zをモデルに 加えた場合 シンクロの 原因となる "水の流れ"が 遮断される バックドアパスが “開いている” バックドアパスが “閉まっている”
  25. 3変量その1 |バックドアパスが”閉じる”とは? X Y Z    X Y

    Z " 分岐点Zをモデルに 加えない場合 分岐点Zをモデルに 加えた場合 シンクロの 原因となる "水の流れ"が 遮断される 3変量における小まとめ(その1): 「Zが分岐点のときはモデルに加えるべし」
  26. 本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.

    3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:事例と補遺
  27. (再掲) 3変量その1 | 3変量で学ぶ重要パターン 共変量Zの重要3パターン X Y Z Zが分岐点 X

    Y Z Zが合流点 X Z Y Zが中間点 『分岐経路』 『合流経路』 『連鎖経路』 Zをモデルに追加することの意義がそれぞれ異なる
  28. 3変量その2 |合流点と「合流点バイアス」 具体例:合流点となる「合否」を”固定” Z:合否 Y:実技 試験 美大の入学試験における仮想例 X:学力 試験 合否Zで層別化すると,

    XとYの間に非因果的な連関(交絡) が生じ、因果効果の推定に合流点バイアスが生じる 実 技 試 験 100 100 合格者 Z=1 実 技 試 験 学力試験
  29. 3変量その2 |合流点と「合流点バイアス」 余談:選抜されたデータから「ランダムサンプリング」しても “疑似相関”は消えません 実 技 試 験 100 100

    学⼒試験 合 格 ラ イ ン 実 技 試 験 100 100 学⼒試験 合 格 ラ イ ン 特殊な選抜を経たデータ(含ウェブモニター等)のバイアスには注意! ランダムサンプリング
  30. (再掲) 3変量その1 | 3変量で学ぶ重要パターン 共変量Zの重要3パターン X Y Z Zが分岐点 X

    Y Z Zが合流点 X Z Y Zが中間点 『分岐経路』 『合流経路』 『連鎖経路』 Zをモデルに追加することの意義がそれぞれ異なる
  31. 3変量その2 |中間点と"表口"パス 中間点を固定すると, Xの「介入効果」自体の流れを伝える "表口パス"自体がブロックされてしまう 在来種Aを護るための 外来種Bの駆除の効果(仮想例) Z:外来種B の根絶 Y:在来種A

    の個体数 X:外来種B の駆除努力 外来種Bの駆除努力 在 来 種 A の 個 体 数 種Bの根絶に成功 (Z=1) 種Bの根絶に失敗 (Z=0) ("overconditioning") Zが中間点の場合は”固定”してはいけない
  32. 本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.

    3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:事例と補遺
  33. 4変量以上の場合|本質は”道”にあり 4変量以上の”道”:合流点の例 Z1 X Z2 Y Z3 Z1 X Y

    Z3 X Z2 Y Z3 X→Y   Z1 Z2 X Y Z3 Z1 Z2 バックドアパスが "開いている" バックドアパスは"閉まっている" バックドアパスの”道”がブロックされて いることが肝要
  34. 4変量以上の場合|本質は”道”にあり 4変量以上の”道”:中間点の場合 X Y Z2 Z1 Z1, Z2は中間点 絶対にモデルに追加したら ダメ?

    中間点を入れるとXからの 因果効果自体が ブロックされてしまうのでダメ! (これは3変量の場合と同様)
  35. 4変量以上の場合|まとめ X Y Z2 Z1 X Y X Y Z1

    Z2 Z2 Z1 X Y Z1 Z2 X Y X Y Z2 Z1 Z1 Z2 バックドアパスを ブロックしろ X→Yの道を ブロックするな もうほとんどバックドア基準 細かい論点をのぞけば 畢竟, 以下2つのメッセージに集約される
  36. 本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.

    3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:事例と補遺
  37. "まとめ"としてのバックドア基準 ガチ教科書内の「バックドア基準」を解読してみよう 1. XからZの任意の要素に有向道がない 2. GよりXから出る⽮線(X→)を除いたグラフにおいて、 ZがXとYを有向分離する 定義 3-5 バックドア基準(back

    door criterion) “逆”のケース(XがYの下流)ではない ⾮巡回的有向グラフGにおいてXはYの⾮⼦孫である。このとき、次 の2条件を満たす頂点集合Zは、(X, Y)についてバックドア基準を 満たすという 例:中間変数や下流の合流点 Xの下流の共変量をモデルに加えてはいけない バックドアパスがブロックされている
  38. (再掲) 4変量以上の場合|まとめ X Y Z2 Z1 X Y X Y

    Z1 Z2 Z2 Z1 X Y Z1 Z2 X Y X Y Z2 Z1 Z1 Z2 バックドアパスを ブロックしろ X→Yの道を ブロックするな もうほとんどバックドア基準 細かい論点をのぞけば 畢竟, 以下2つのメッセージに集約される 条件(1)に対応 条件(2)に対応
  39. "まとめ"としてのバックドア基準 ガチ教科書内の「バックドア基準」を解読してみよう 1. XからZの任意の要素に有向道がない 2. GよりXから出る⽮線(X→)を除いたグラフにおいて、 ZがXとYを有向分離する 定義 3-5 バックドア基準(back

    door criterion) “逆”のケース(XがYの下流)ではない ⾮巡回的有向グラフGにおいてXはYの⾮⼦孫である。このとき、次 の2条件を満たす頂点集合Zは、(X, Y)についてバックドア基準を 満たすという 例:中間変数や下流の合流点 Xの下流の共変量をモデルに加えてはいけない バックドアパスがブロックされている
  40. 本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.

    3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:例題と補遺
  41. 例題その1 |どの変数を加えれば良い? X Y Z3 Z2 Z1 Z1, Z2をブロックすると3つの バックドアパスが全て遮断される

    バックドア基準を満たす最小の変数セットは「Z1, Z2」 *「Z1, Z2, Z3」もバックドア基準を満たします →推定精度の向上の観点からはZ3も入れた方が良好な場合が多い(サンプルサイズ次第)
  42. 例題その2 |どの変数を加えれば良い? X Y Z1 Z4 Z3 Z2 Z5 Z6

    バックドア基準 を満たす最小の 変数セットは 「Z1」 *ここでZ5, Z6を入れると 新たなバックドアパスが 開いてしまう *Z4はそもそも 中間点なので入れてはダメ Z1をブロックすると2つの バックドアパスが全て遮断される
  43. 例題その3|どの変数を加えれば良いのか? X Y Z1 Z2 この部分の 因果構造は不明 バックドアパスが ある場合、必ず Z1,

    Z2のどちらかを通る 「Z1, Z2」を加えればバックドア基準を満たす ポイントとなる部分の適切な粒度の背景知識があればよい
  44. 例題その3|どの変数を加えれば良いのか? 調整すべき変数の数は「処置Xを生じさせるシステム」と「結果Yを 生じさせるシステム」のデカップリングの程度に依存する (一般論として) X Y Z2 Z6 Z5 Z7

    Z1 Z3 Z4 Z10 Z11 Z9 Z8 バックドアパスの成因となる変数=0 いわゆる”自然実験”のケース Xを生じさせる システム Yを生じさせる システム つまり、調整すべき変数の数はかなり対象と文脈に依存する
  45. 補足1|実験における無作為化との関係 X Y Z1 Z3 Z2 Z5 Z6 Z4 コイントス

    実験とはシステムを“デカップリング”するための方法である コイントスで決めることにより 「Xのシステム」と「Yのシステム」が 完全にデカップリングする
  46. 補足2|傾向スコアとの関係 傾向スコアはバックドアパスをブロックする"合成変数" X Y Z1 Z3 Z2 Z5 Z6 Z4

    e 傾向スコアで まとめてブロック うまく適用できれば超強力な手法! ブロックにより デカップリングが 成立する
  47. 補足3|差の差分析との関係 差の差分析は差分データ化してバックドアパスを消す X Y Z1 Z3 Z2 ΔX ΔY t

    t t t t X Y Z1 Z3 Z2 t' t' t' t' t' 時点t 時点t’ 全要因の 時点間差分 をとる Z1, Z2, Z3が時間不変ならば ΔZ1, ΔZ2, ΔZ3はゼロ (項がキャンセルアウトされる) バックドアパスは消失
  48. まとめ|バックドア基準とは “バックドア基準が満たされている” + (2) 処理Xの下流の変数が追加されていない (1) 開きっぱなしのバックドアパスがない 変数ベースではなく”道”の開閉がキモ 傾向スコアもバックドアパスを閉じるための強力な手法 (バックドア基準は満たすべき理論的条件)

    介入効果がバイアスなく推定できる *データが適切に測定されており、かつ適切なモデルが適用されているという大前提での話です たとえ森羅万象が因果関係で繋がっていても、因果効果を バイアス無く推定するために考えるべき局所的な因果構造と 変数の範囲を理論的に限定できる
  49. 議論|重回帰分析のそもそもの目的を考えよう AICで変数選択しちゃだめなの? 目的の 分類 やりたいことの内容 事例のイメージ (大学の留年の例で) 理念的な理想を なす解析法のイ メージ

    モデル選択の 理論的基準の例 しばしば 現実的な 解析法 予測 現在得られている情報から、 将来/未知の値/状況を予測 したい 多数の変数の情報から、留年リスク の高い学生を見つけたい (→その後の支援につなげるなど) 機械学習 AICなど予測能力 の指標 重回帰分析! 説明・記述 要素間の関連性を説明したい なぜ学生が留年するかを説明したい (→要因を探索し理解/対策に繋げたい) フルスタックの 構造方程式 (含む因子分析等) Bayes Factorな どの適合性の指標 重回帰分析! 因果・介入 の効果推定 (制御) ある要因Xに介入したときの、 要因Yに及ぼす効果を知りた い 特定のプログラムの導入が留年を防 止する効果を知りたい (→制御法の効果を知りたい) ランダム化比較 試験 バックドア基準・無 視可能性などの 識別可能性の指標 重回帰分析! 今日はここの話 (基本的には)まずは目的に応じた基準を使ってください *基本を踏まえた上で言うと、「交絡によるバイアス除去」と「推定精度」とのバランスなども考慮に入ってきます
  50. 議論|バックドア基準なんて使えないじゃん(3/3) DAGは描けないし、全ての変数も観測できないし、バックドア基準なんて使えない! 気持ちはよく分かります そもそも論を言うと、「バックドア基準」は“北極星”のようなものであり、実際には 手は届きません しかし“北極星”が「基準となる方角」を示しているからこそ、交絡の闇夜の中でも、 私たちはそこ(バイアスの無い因果効果の推定)を目指すことができるのです 畢竟、「正しいDAG/モデル」とは形而上の存在です 実際問題として、バックドア基準を知ることで「進むべき道の誤まり(e.g., AICで選んだモデル

    の偏回帰係数を何も考えずに因果効果の推定値として解釈していた)」に気づく、みたいなこと がバックドア基準のもっともポピュラーな“役に立ち方”かもしれません 最終的な論文の中では登場しなくても、事前検討や事後(ロバストネス)検討など の際にバックドア基準系の知識を使ってることはけっこうあるかもしれません 論文の中では言及されないので、そうした実践は外からは見えないものです
  51. 議論|バックドア基準の潜在的な御利益 • バイアスのない推定の成立条件を検証するための視覚化 • 調整すべき変数についての論理が得られる • 調整すべき変数を絞り込むことができる • 調整すべき変数の抜け漏れを防げる •

    結果・処理・共変量の変数の概念的妥当性の吟味に役立つ • 感度分析・媒介効果分析への橋渡しとなりうる • 外的妥当性についての議論も深まりやすくなる • 因果の図解自体が関係者とのやりとりに役立つ • 量的(統計的)研究と質的研究の橋渡しとなりうる “Assumptions visualization tool” “分析対象の総合的理解”への見通しが開きやすい 詳しくは本書参照!→
  52. 補遺:バックドア基準と多重線形性の関係の説明 • ステップ1:まず2変量(X, Y)の場合を考える 𝑦 = 𝛽𝑥 + 𝛾 𝛽

    = 𝑆!" 𝑆!! 𝛽 = 𝑟!" 𝑟!! 𝛽 = 𝑟!" 単回帰モデルの回帰係数βは 単純化のためデータが標準化 されている場合を考える 単回帰係数は 相関係数に等しい
  53. 補遺:バックドア基準と多重線形性の関係の説明 • ステップ2:3変量(X, Y, Z)の場合を考える 𝑦 = 𝛽! 𝑥 +

    𝛽" 𝑧 + γ 𝛽! 𝛽" = 𝑆!! 𝑆!" 𝑆!" 𝑆"" #$ 𝑆!% 𝑆%" 重回帰モデルの回帰係数βxは 単純化のためデータが標準化 されている場合を考えると 𝛽! 𝛽" = 1 𝐷 𝑆"" 𝑆!% − 𝑆!" 𝑆"% −𝑆!"𝑆"% + 𝑆""𝑆!% 𝛽! 𝛽" = 1 𝐷 𝑟"" 𝑟!% − 𝑟!" 𝑟"% −𝑟!"𝑟"% + 𝑟""𝑟!% 𝛽! = 𝑟"" 𝑟!% − 𝑟!" 𝑟"% 𝑟"" 𝑟!! − 𝑟!" 𝑟!" 𝛽! = 𝑟!# − 𝑟!" 𝑟"# 1 − 𝑟!" $ 分⺟に⾏列式が 出て来るのがポイント
  54. 補遺:バックドア基準と多重線形性の関係の説明 • ステップ3:3変量の偏回帰係数βxとβの⽐較 重回帰モデルの回帰係数βxは 𝛽! = 𝑟!" − 𝑟!# 𝑟#"

    1 − 𝑟!# $ 同じデータをxで単回帰すると 𝛽 = 𝑟!" 本来はZを含まねばならぬときには ↓の式が正解
  55. 補遺:バックドア基準と多重線形性の関係の説明 • ステップ3:3変量の偏回帰係数βxとβの⽐較 重回帰モデルの回帰係数βxは 𝛽! = 𝑟!" − 𝑟!# 𝑟#"

    1 − 𝑟!# $ 同じデータをxで単回帰すると 𝛽 = 𝑟!" ずれる 本来はZを含まねばならぬときには ↓の式が正解 いわゆる"交絡"に よるバイアス この項が ⽋落
  56. 補遺:バックドア基準と多重線形性の関係の説明 • ステップ3:3変量の偏回帰係数βxとβの⽐較 重回帰モデルの回帰係数βxは 𝛽! = 𝑟!" − 𝑟!# 𝑟#"

    1 − 𝑟!# $ 同じデータをxで単回帰すると 𝛽 = 𝑟!" ずれる xとzの相関が1に近いときに 誤差により⺟数の推定が不安定になる 本来はZを含まねばならぬときには ↓の式が正解 いわゆる"交絡"に よるバイアス この項が ⽋落 いわゆる "多重共線性"
  57. 補遺:バックドア基準と多重線形性の関係の説明 122 • ステップ4:バックドア基準で振り返る(その2) X Y Z 𝛽! = 𝑟!"

    − 𝑟!# 𝑟#" 1 − 𝑟!# $ この場合、交絡は⽣じないが、因果構造の知識を利⽤せずにZを含めて 計算すると多重共線性の問題は⽣じうる 𝛽, = 𝑟!" = 𝛽 𝛽! = 𝑟!# − 𝑟!" 𝑟!" 𝑟!# 1 − 𝑟!" $ 𝛽! = 𝑟!# (1 − 𝑟!" $) 1 − 𝑟!" $ Zを追加しなくともバックド ア基準が満たされている "多重共線性" の可能性 因果構造の 知識から
  58. 補遺:バックドア基準と多重線形性の関係の説明 • まとめ:変数の追加で偏回帰係数が揺れる理由 𝛽! = 𝑟!" − 𝑟!# 𝑟#" 1

    − 𝑟!# $ 𝛽 = 𝑟!" (2) xとzの相関が1に近い (⾏列式が0に近い) (1) x, z, yの相関によるバイアスの⽣滅 バックドア基準の守備範囲 いわゆる「多重共線性」の守備範囲 (3) サンプルサイズの有限性による誤差 「多重共線性」 という現象 サンプルサイズ無限⼤でも⽣じる (相関が1でない限り) サンプルサイズ無限⼤ では⽣じない これ⾃体は符号 の向きを変えない!
  59. 補遺:バックドア基準と多重線形性の関係の説明 • まとめ:変数の追加で偏回帰係数が揺れる理由 𝛽! = 𝑟!" − 𝑟!# 𝑟#" 1

    − 𝑟!# $ 交絡によるバイアスと多重共線性はどちらも𝑟!" の項が キーとなるので現象⾯からは⾒分けがつきにくい ただしここで⾒てきたように両者はメカニズム的には 別物であり、対処法も別物である 実務的には「銀の弾丸」は無いが、作業仮説的な因果構造の図を幾つか描いてみつつ、 共変量の出し⼊れによって偏回帰係数や信頼区間がとう変化するのかを検討すると 「何が起きているのか/何が起きていないのか」が分かってくることが多い 交絡 多重共線性
  60. 補⾜その3 |バックドア基準を満たすときだけ? バックドア基準を満たさなくともバイアスなく推定 できる場合ももちろんある X Y Z1 その他、バックドア基準を満たさなくとも「フロ ントドア基準」などが満たされている場合には他の ⽅法での推定が可能

    モデルへの「Z1」の追加はバック ドア基準を満たさないが、バイア スの原因にもならないので⼀致推 定に関しては問題ない (まあでも追加することの積極的な意味もおそらくない) 単純な例 (詳しくは後述の参考⽂献をご参照ください) ・ ・