Upgrade to Pro — share decks privately, control downloads, hide ads and more …

因果推論のススメ/Causal inference no susume

Avatar for jinta jinta
May 05, 2020

因果推論のススメ/Causal inference no susume

因果推論について紹介ときのスライドです。事例多めに作ってあります

Avatar for jinta

jinta

May 05, 2020
Tweet

More Decks by jinta

Other Decks in Technology

Transcript

  1. 自己紹介 2 • 田中 仁 (たなか じん) • 大学、院で経済学を学ぶ • 最近の趣味:募集中。友人たちは家でできる趣味を始めていてうらやましい

    • 最近知ったこと:昔よく行っていた狸谷山不動院で秋に立派なお祭りをやっていたらしいということ • 最近購入を検討しているもの:観葉植物 2 2
  2. 今日話すことと注意点 今日話すこと • 因果推論ことはじめ • イチオシの事例 3 3 3 今日話さないこと

    • 因果探索 • 理論の詳細 • 経済学での事例 注意点 筆者の知識は偏ってます。 事例もコアすぎるかもしれません。あと細かい状況とかは適当に改変しています かなり説明を省いています。正確でないかも
  3. 考えるためのフレームワーク 7 状況:D→Yの因果効果を知りたい アイデア:Dが起きた時の結果とDが起きなかった時の結果を比べる 7 7 Rubinの因果モデル/潜在結果アプローチ: causal effect =

    ❖ (dが起きた時と起きなかった時 )両方の結果を観測することは不可能!!! ➢ 個人単位でなく、平均を見る ❖ 「何と何を比べるか」が重要 ➢ d=1の集団とd=0の集団を比べるのに意味があるのはどういったときか
  4. いつ因果効果をはかれるか 9 ①原因がランダムに割り当てられているとき  数式だと… Y(1)⊥D and Y(0)⊥D ②以下の3つに当てはまらないとき ③共通の要因を全てコントロールできた時  同じXを持つ人の中をみると、

    Dかどうかはランダム 9 9 因果の流れが逆 共通の要因がある セレクションバイアス D Y D Y X Y D ②③を確かめる(検定のような)手段はない ⇒どれだけ説得力のある説明ができるかが全て
  5. 注意 10 あまり明示されていないけど大事な仮定:SUTVA (Stable Unit Treatment Value Assumption) 意味:自分の結果は他の人がどうかに左右されない 10

    10 例:セブンのビール実験中止 ネットで話題になりすぎて遠方からビールを求め にわざわざ実験対象の店舗まで来る輩が現れる ⇒例え実験実施店舗をランダムに割り当ててい るとしても、実際に導入したときに得られる効果 よりも大きく売上がでてしまう source 実際はこれだけが理由なら延期で十分なはずなので、中止にして今もそういう 話を聞かないのは他に深い理由があったのでしょう。知らんけど
  6. 事例1: コレラの感染経路? 12 因果推論の最初の例と言われる有名な事例 時は19世紀中ごろ、舞台はロンドン。産業革命下の大 都市を襲うパンデミックを食い止めようと駆け回っている 1人の医者がいた。彼の名は John Snow 当時、感染経路の主要な仮説は空気感染。一方でス

    ノーは水が原因だと主張する。「まあ汚らしい。感染者の 排泄物を口から取り入れているわけないじゃないの」と 市民には全く受け入れられない。 そこで彼が水が感染経路だと証明するためにとった行 動とは?
  7. Causality in the Time of Cholera 13 当時は水道会社の興隆期。上水道の水源をテムズ川上流に移した地区と変わりない地区を比 べることで、水こそが原因だと推定 13

    13 1849年 1854年 North London South London 死亡率:高 死亡率:高 死亡率:高 水道管の変更 死亡率:低 1852年 水道管を変更しなかった時の South LondonのCounterfatualな結果を表す変数とし て、North Londonを用いることができるという発想
  8. Causal Estimation of SHO on SARS-CoV-2 Transmission 15 SHO (Stay

    at Home Order) は人の移動の減少というチャネルのみを通じてコロナ (の感染率)に影響すると仮定。SHOの効果は下図の①×②で推定される 15 15 SHO Moving COVID-19 New Cases ① 因果推論 ② 疫学モデル • スマホのデータを用いることで同じ個人について SHOが出る前後を比較可能に。 • 4月30日までに通常時比70%も移動が減少するも、①によると SHOによるものは16%、 関連する政策まとめた効果は約 50% • SHOに従うか否かは人によって大きく異なる ◦ Trump支持者はClinton支持者に比べて従わない • ①×②より、SHOは新型コロナの感染を7%減少させた
  9. Partisan differences 16 感染者が多いのは民主党地盤の地域なので、民主党支持者が移動を減らすのは SHOの効果とは言い切れない。そこで隣接する支持層が違う地域を比べる 16 16 左図で赤がトランプが勝った選挙区、青 がクリントンが勝った選挙区。 A,Bは州は異なる(つまりSHOが異なる)

    も支持層は同じ隣接する地域に住む2 人、 C,Dは州(and county)は同じ(つまりSHO は同じ)でも支持層が異なる隣接地域に 住む2人を表す。 彼らを比較することで人々がSHOにどう 反応するか、またその支持政党による違 いを取り出すことができる 出典:https://arxiv.org/ftp/arxiv/papers/2005/2005.05469.pdf
  10. なぜA/Bテストではだめなのか 18 1. 実験ができない場合がある a. 倫理的な問題(医療とかは顕著) b. 不公平感(ソシャゲとか) c. 費用(実世界だと結構かかる)

    2. 単純な実験以上のことを知りたい a. 全員に同じ効果なわけがない b. 実験した後どうするかまでシームレスに考える 18 18 加えて、この辺の考え方を身に着けておくのは予測だけしたいピープルにとっ ても良いこと(だと思う)
  11. 運用型ゲームの分析における因果推論の活用 20 • 考え方:商品購入までの行動履歴や属性から 商品の購入確率を推定。それを用いて購入 /非購入の違いのみに焦点をあてる • 単純に購入/非購入者を比較できない理由 :そもそも継続率が高いような人が商品を購入 する

    • この方法で因果を主張するのに必要な仮定 :同じ購入確率の人を見れば、購入者も非購 入者も(購入、非購入で条件づけた)継続率が同じであること。 • 手法:IPW(購入確率で上手く重みづけて回帰することで購入者 /非購入者の属性の違いを 無視) • 結果:購入によって継続率は上昇した 20 20
  12. 事例4: Uber開発の Uplift Modeling 21 A/Bテストの先を見据えた例。なんとなく機械学習 ×因果 推論のメインストリーム感はある 論文にある例は広告のチャネルはどれがいいか(メール かSMSかアプリ内通知か)という話題。

    実験はできるが、(i)複数個の介入がある、(ii)コストは介 入ごとに異なる、(iii)個人ごとに効果が違うだろう、 (iv)そ れらを踏まえてどうするのが最適か、つまり誰に何をす るのが最適か、まで知りたい。というかなり欲張りな 1 本。その分かなり現実で使えそうな印象
  13. Uplift Modeling 22 機械学習を用いてCATE(グループごとの因果 効 果)を推定するメタアルゴリズムを改良すること で、複数個の介入及び施策ごとに異なるコスト を考慮したうえでNet Valueを最大にするアルゴ リズムを設計

    22 22 右はとある販促キャンペー ンのオンライン実験を用い た例。 コストも踏まえて最適化した もの(黒、黄色)がNet Value が高いことが分かる 出典:https://arxiv.org/pdf/1908.05372.pdf
  14. 参考にしたもの 25 • John Snowについての論文 • 上のに関するHeckman(経済学の超大物)の講義ノート • SHOの効果論文 •

    Uberの因果推論に関する記事 • DeNAの記事 • UberのUplift Modeling論文 • Uberの関連するGithub 25 25
  15. 参考になるもの 26 1. 一般向けの読み物 ◦ データ分析の力 (伊藤)、「原因と結果」の経済学 (中室・津川) ◦ どちらも読んだことはないが、評価は高いよう。一般向けのは最近色々なジャンルで沢山出版されているので、適当に

    本屋で選べばよいと思われる 2. 入門編 ◦ 効果検証入門(安井):最近サイバーエージェントの人が書いた本。立ち読みした感じだと読みやすくかつ内容もしっかり してそう。ビジネスで使いたい人を対象に書かれたものだろうが、必ずしも驚くべきビジネスの事例が盛りだくさんという わけではなさそう。 ◦ 岩波データサイエンス Vol3:おなじみのシリーズ。トピックは癖がある感じがするが、多分情報出の人とかにとっては読 みやすい 3. 中級編 ◦ ほとんど無害な計量経済学 (アングリスト・ピシュケ):いい本なんだけどなんか文章が読みやすくない、という評価でお なじみの1冊 ◦ Econometric method for program evaluation (Abadie & Cattaneo):経済学でよく使われる手法がコンパクトにまとまっ ている 4. 上級編 ◦ Causal Inference (Imbens & Rubin):バイブルみたいに言う人もいるが、ちょっと古いしパネルの話題もほとんどないの で、これを1冊あればなんでも解決!とはならない。この分野の第一人者が書いた良い教科書なのは間違いないが、 ちょっと重すぎる。これを読むなら関連する論文あされば十分という気もする 5. その他 ◦ 「因果関係」をとらえるために :弊社の先輩(お会いしたことはない)によるスライド。このスライドよりよっぽど親切丁寧な 説明。 26 26 あくまで個人の見解です。僕も全てを読んで いるわけではないので悪しからず
  16. 関連する面白そうな話題 27 • 因果探索 ◦ XXXの原因って何?みたいなざっくりした疑問に答えるもの ◦ まだ実際に使われている例は少なそうだが、面白そう • Mediation

    Analysis ◦ 因果推論の手法のひとつ。因果の経路を知りたいときに使う。UberとかBooking.comとかで結構使われている らしい • Bandit ◦ もとは機械学習とかのトピックだと思うが、因果推論と相性が良いのかそっちの界隈でも耳にする • SCM ◦ Pearl流のそれ 27 27 詳しい人いたらぜひ教えてください m(_ _)m