Upgrade to Pro — share decks privately, control downloads, hide ads and more …

調整変数の選び方

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for KRSK KRSK
September 13, 2022

 調整変数の選び方

因果推論における調整変数の選び方に関するレクチャーです。

Avatar for KRSK

KRSK

September 13, 2022
Tweet

More Decks by KRSK

Other Decks in Science

Transcript

  1. 6 X Y Ø 要因間の関係性を図で整理 Ø 点(Node)と⽮印(Edges)で構成 Ø 点は変数(アウトカムや曝露因⼦) Ø

    ⽮印は1⽅向のみ (Acyclic) Ø (左から右に時間が流れるように書くと読みやすい) Ø 直接⽮印で結ばれていると因果効果あり Ø 因果効果があるときは統計的な関連もあり DAGの原則
  2. 7 Ø ZはXとYの共通原因(Common Cause) Ø XとYの間に因果効果でない統計的関連(交絡)が⽣じる Ø X<- Z ->Yという裏⼝経路(Backdoor

    Path) Ø Lを条件づける(四⾓で囲む)ことで裏⼝経路を閉じる X Y Z X Y Z DAGルール1︓ “共通の原因”による裏⼝経路
  3. 8 Ø CはXとUの共通効果(Common Effect; Collider) Ø X-Uの間の関連はそのままだと⽣じない Ø Cを条件づけるとX-Uの間に関連が⽣じる Ø

    「Cの条件付け」=Cの値が同じ⼈を対象に分析 Ø Collider Stratification Bias (a.k.a. 選択バイアス) Ø デザイン・解析で発⽣ Ø 選択バイアスは内的妥当性の問題 X Y C U DAGルール2︓“共通の効果”の条件付けによる裏⼝経路
  4. 9 Ø 離脱しなかったひとのみを分析(Cで条件付け) Ø コントロール群の⼈、抑うつレベルが⾼い⼈は離脱しやすい Ø コントロール群&離脱しなかった⼈は抑うつレベルが特別低かった︖ Ø 介⼊群の⼈は少々抑うつレベルが⾼くても離脱しなかった︖ Ø

    介⼊群はコントロール群より抑うつレベルが⾼い Ø 介⼊群のほうが⾝体的健康状態が悪く⾒える X︓ランダム割付された治療 C︓Loss-to-follow-up U︓抑うつレベル Y︓⾝体的健康状態 X Y C U 選択バイアスの例︓追跡の失敗
  5. 10 X Y C U (Hernan, et al 2004) (edX

    Free Online Course by Hernan) 1. 追跡の失敗(Loss-to-follow-up) 2. 競合リスク(Competing Risk) 3. サンプリング⽅法 4. ⽋測データ(Missing Data) 5. ⾃⼰選択(Self-selection) બ୒όΠΞε͕ੜ͡ΔγφϦΦ 対象選択の条件が曝露・治療に影響を受けているか︖
  6. 11 Ø Mは曝露効果の中間因⼦・媒介因⼦(Mediator) Ø Mを条件づけるとX-Yの関連をブロック Ø Mを経由する間接効果をブロック Ø Mを経由しない直接効果の推定が可能 Ø

    ただし媒介分析には注意が必要 Ø 過調整により全体効果は過⼩推定 X Y M DAGルール3︓中間因⼦を条件づけると過調整
  7. 伝統的な交絡因⼦の定義がうまくいかないケース 13 U2 Z U1 X Y Ø XとYの間に裏⼝経路はなし Ø

    ZはU1 とU2 の共通効果 Ø 調整不要 Ø Zは・・・ Ø 曝露と関連 Ø 曝露を条件づけてもアウトカムと関連 Ø 曝露効果の経路上にない U2 Z U1 X Y Ø Zを調整すると選択バイアス Ø X-Y間の裏⼝経路が開く Ø Mバイアス
  8. なにを調整すべきか︖ シンプソンのパラドックス (Simpson, 1951) 治療なし 治療あり ⽣存 6 20 死亡

    6 20 ⼥性 男性 治療なし 治療あり 治療なし 治療あり ⽣存 4 8 2 12 死亡 3 5 3 15 治療あり︓20/40=0.5 治療なし︓6/12=0.5 治療あり︓5/13=0.38 治療なし︓3/7=0.43 治療あり︓15/27=0.56 治療なし︓3/5=0.6 男⼥合計で治療効果なし 男⼥ともに治療効果あり どちらが正しい︖ 14
  9. 再度シンプソンのパラドックス 柄 数字 ⾚⾊ 6 20 ⿊⾊ 6 20 汚れあり

    汚れなし 柄 数字 柄 数字 ⾚⾊ 4 8 2 12 ⿊⾊ 3 5 3 15 数字︓20/40=0.5 柄︓6/12=0.5 数字︓5/13=0.38 柄︓3/7=0.43 数字︓15/27=0.56 柄︓3/5=0.6 柄カードも数字カードも ⿊の割合は同じ 柄カードで⿊⾊が多い どちらが正しい︖ 「⿊⾊の割合は柄と数字で違う︖」 16
  10. なにを調整すべきか︖ 汚れ 柄 ⾊ • 柄のほうが好き • ⾚⾊のほうが好き • 共通効果

    • 選択バイアス • 汚れの調整は不要 • 合計データの結果が適切 17
  11. 汚れあり 汚れなし 柄 数字 柄 数字 ⾚⾊ 4 8 2

    12 ⿊⾊ 3 5 3 15 汚れ 柄 ⾊ ⼥性 男性 治療なし 治療あり 治療なし 治療あり ⽣存 4 8 2 12 死亡 3 5 3 15 性別 治療 死亡 同じデータでも適切な分析アプローチは違う データの背後にある因果構造の知識が必要 18
  12. 20 データドリブンな変数選択 Ø どれを調整すれば裏⼝経路を閉じれるか︖ Ø ドメイン知識 Ø 裏⼝経路を閉じれる調整変数セットを選んだ後 Ø そこから調整変数を減らす(Dimensionality

    Reduction) Ø データドリブンな⼿法が存在 Ø 例︓Forward selection, Backward selection Ø 課題︓post-selection inference, p値に基づく取捨選択など Ø 機械学習を使ったモダンなアプローチも
  13. 21 実践的な調整変数選択アプローチ Ø 完全なDAGはわからない Ø 調整変数間の因果構造も知る必要がある Ø 関与する変数が多いと⼿に負えない Ø 仮定をの可視化、分析前のディスカッション・分析後の批判

    的吟味の円滑化 X Y Z U 注意点1︓操作変数を調整しない X Y U Z 注意点2︓未測定交絡因⼦のプロキシは調整 Ø より実践的な変数選択 Ø 「交絡因⼦選択の原則」 (VanderWeele, 2019) Ø Disjunctive Cause Approach Ø 曝露またはアウトカムの決定要因を調整 Ø 必要なドメイン知識は少なくなる
  14. 22 変数の”タイミング”も重要 Ø 曝露・アウトカムが同じ時点 Ø 横断(cross-sectional)デザイン Ø 逆因果 ϕʔεϥΠϯલ ϕʔεϥΠϯ

    ϑΥϩʔΞοϓ 調整変数 曝露 アウトカム Ø 曝露・調整変数が同じ時点 Ø 中間因⼦の過調整 Ø “No association after adjustment” ≠ No effect Ø 理想的には調整変数・曝露・アウトカムの測定タイミングをずらす Ø 3時点以上の追跡調査などが必要 Ø ベースライン前の曝露・アウトカム値は特に重要な調整因⼦ Ø 時点間の変動がある場合のみ
  15. 23 測定と交絡 Ø データ・測定は常に不完全 Ø 妥当性(⾒たい概念と測定が⼀致しているか) Ø 例︓発症vs診断, BMIvs肥満 Ø

    信頼性(どのくらい真の値に近いか) Ø 例︓バイオマーカー Ø 交絡因⼦の測定が不完全な場合は残余交絡(residual confounding) Ø 正しく調整変数選択をしてもバイアスが⽣じる Ø 交絡因⼦のプロキシは「測定が不完全な交絡因⼦」とみなせる Ø 例︓所得レベルと⽣活保護の有無 X Y U Z
  16. 25 未測定交絡バイアスの定量的考察 #1. E-value Ø VanderWeele and Ding, 2017 Ø

    観察された関連がすべてバイアスで説明されるには調整済み交絡因⼦と独⽴して どのくらい強い未測定交絡が必要か #2. Bias parameter Ø 未測定交絡と曝露・アウトカムそれぞれの関連の強さを仮定 Ø ⽣じうるバイアスの⼤きさを定量化 Ø 様々な値でシミュレーション
  17. 「未測定交絡なし」の仮定の重⼤な違反がないかチェック Ø NEJM; Dickerman, et al (2022) Ø COVID-19ワクチンの効果評価 Ø

    共変量のマッチング後は交絡がないという仮定 Ø 正しいという証明はできない 26 アプローチ1:初回接種後10⽇の発症 アプローチ2︓⾮COVID-19関連死亡 Ø 理論上は差がなし(Negative control) Ø 群間差→患者背景の違いを⽰唆 Ø 仮定のfalsification (not verification)
  18. 27 本⽇のまとめ Ø ドメイン知識を使って因果構造を考える Ø DAG Ø Disjunctive cause approach

    Ø 調整すべき因⼦は統計的に判断できない Ø 調整変数を減らすために⽤いることは可能 Ø 調整変数は曝露変数よりも前の時点から Ø 特にベースライン前の曝露・アウトカム値は重要な調整因⼦ Ø 測定の質と残余交絡にも注意 Ø バイアスは定量的に議論 Ø なにがすでに条件づけられているか︖ Ø 仮定のfalsificationはできるか︖