Upgrade to Pro — share decks privately, control downloads, hide ads and more …

白金鉱業 Meetup Vol.15 :『Pythonで学ぶ効果検証入門』の歪なところ、その理由

Hirotake Ito
September 19, 2024
1.7k

白金鉱業 Meetup Vol.15 :『Pythonで学ぶ効果検証入門』の歪なところ、その理由

Hirotake Ito

September 19, 2024
Tweet

Transcript

  1. 自己紹介 「伊藤寛武 」と申します! • サイバーエージェントに勤務。 • 新規事業立ち上げに奮闘中。データサイエンティ ストとしては開店休業状態。 • バックグランド

    修士(経済学、マクロ経済学) → 資産運用会社 → ベンチャーコンサル → 助教 兼 博士(労働経済学) → CA 2 時系列の知識は大体この辺で更 新が止まっている 因果推論の知識を仕込んだ時期。 Mostly Harmlessちゃんと読んだ のもこの頃
  2. 本の章立ての順番がヘン • 2章 A/Bテストを用いてクリーンに効果検証を行う • 3章 A/Bテストを用いて実務制約内で効果検証を行う • 4章 Difference

    in Differencesを用いて効果検証を行う • 5章 Regression Discontinuity Designを用いて効果検証を行う 8 • 「A/Bテスト → DID → RDD」という順序 • サンプル全体でのランダム性を使うA/Bテストと局所的なランダム性を使うRDDは推定に 使っている変動という意味で似た手法 →自然な発想では「A/Bテスト → RDD → DID」であるべき
  3. 思想:学ぶべき手法には優先度がある • 顕教:いろんな場面で使える手法がえらい • 「正しさ分析しないといけない」→ A/Bテスト • 「少しでもマシな分析を手早く」→ DID •

    「A/Bテストができないときの工夫の1つ」→RDD • 密教:分析結果として得られる情報がリッチである手法がえらい • A/BテストおよびDIDはポピュレーションの全体における効果がわかる • A/BテストはATE、DIDはATT • どっちが知りたいか? • DID:少しノイズが入るけど対象とする集団における平均的な効果 • RDD:ノイズは入っていないけどローカルな集団における効果 • ローカルな集団を対象にしているから、更なる細分化は難しい 9
  4. 得られる情報量に注目し、交差項の紹介には執着 • 当該書籍では「交差項」を厚く・熱く紹介している • わざわざ次の2つを峻別して紹介 • 単純な交差項 • サブサンプル解析 •

    異質性分析はA/Bテストからメカニズムの解析を目指すときの 心強い武器 • 分析者側にスキルがいるが、情報量が多い • その割に分位点回帰とかDTEとかは紹介しなかったが… • この異質性を綺麗に取れることこそがA/Bテストの超強いメリット 10
  5. 思想: 運用しづらい手法は実務/組織では用いるべきではない • 次の2つの識別はどうするのか? • 「やってよい操作変数法」と「やってはだめな操作変数法」 • ついつい「バルティック操作変数なら使っていいよ」とか言いがちだが… • この識別のためには、手法の仮定やお気持ちを理解し判断しないといけな

    い • 比較的容易 :教科書を読んで、必要な仮定を理解すること • 比較的難しい:実務上どの程度violationを許容するのか?の判断 • 意思決定をするための効果検証に意思決定が必要という微妙さを鑑み、本 ではあえて強い言葉を使いながら「使うべきではない」とした 14
  6. そもそもA/Bテストですら運用は難しい • そもそもA/Bテストが難しい • A/Bテストが簡単ならばKohaviの本はあれ ほどの厚さにはならない • A/Bテスト基盤がある≠A/Bテストの運 用ができている •

    BigTechやそれに準じる企業組織の人は A/Bテスト基盤を作りたがる • それって本当に正しく運用できている? 15 経済学のトップジャーナルでもRCTのリサーチにおいて 頑健な値を提供していない(Young, 2019)
  7. 思想: 簡単な分析をまずは確実に実施できるようになろう • 潜在的な課題の多くはA/Bテストを含む凡庸な効果検証手法の 適切な実行/エグゼキューション • ほんとにまともにA/Bテストをできている分析組織がどれくらいある のか? • 効果検証の問題のほとんどは「高度な効果検証」の遥か手前にある

    • 本では分析の適切性を計測する方法をかなり手厚く紹介した • A/Aテスト、リプレイ、バランステスト、プレトレンドテスト、 Mccarryテスト • 扱っているテーマは少ないが、トピックは結構色々紹介した 18
  8. 本では「A/Bではランダムに割り当てをします」 以上のことを言っていない • 本書での議論のされ方 • 「『どのようにランダムなのか?』という割り当てメカニズムに関し ては、さまざまな選択肢が存在しているのです」 • 「使うべき手法」とか何も書いていない •

    「少なくとも」次の2つの区別を誤魔化して書いている • ベルヌーイ割り当て • 完全無作為抽出 • この2つの区別は実務家としては普通に必須だと思う • そして割り当て方法に応じた分析手法を使うべき…本当は • 細かい議論は、Imbens & Rubinを見てほしい 20
  9. 本ではサンプルサイズの議論も薄い • 本書での議論のされ方 • 「サンプルサイズを事前に計算(…)必要があります」でおしまい • 計算方法に触れず!!! • 永田本にぶん投げた(→『サンプルサイズの決め方』) •

    統計初心者が永田本を読むのは難易度が高いのは知っていての所業 • アンチパターンはキッチリ紹介 • ナイーブな逐次停止 • 「サンプルサイズは多すぎるのもダメ」 23
  10. デルタメソッドはムズい • デルタメソッドはDeng et al(2018)が元ネタ Deng, Alex, Ulf Knoblich, and

    Jiannan Lu. "Applying the Delta method in metric analytics: A practical guide with novel ideas." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018. • 読んでみると案外、数式間の補完が必要 • 状況によって使いまわすためには、「理解」していないとダメ系 • パッケージの支援も厳しい • 分析チームとしてこの手法を前提にするのは厳しいと判断 27
  11. 思想:回帰分析ができれば十分実用的 • 書籍では、回帰分析 & クラスタ頑健標準誤差の手法を紹介 • 回帰分析 → 比較的慣れ親しんだ手法 •

    クラスタ頑健標準誤差 → パッケージの支援あり • 「クラスターA/Bならばクラスタ頑健標準誤差を使いましょう」と紋切り 型の主張にできる • クラスターA/BテストをA/Bテストのデザインの1つとして整理 • デルタメソッド/クラスタ頑健標準誤差という手法の話ではなく、クラス ターA/Bテストという効果検証プロジェクトデザインの一環として整理 • 「重要なのは効果検証の手法ではなくプロジェクトのデザインである」と いう主張を一貫させた。 • 分析という道具については回帰分析だけでかなりいいところまでいける 28
  12. 「”分析方法としては“回帰分析を用いる」ことは 分析プロジェクトの単純化を意味しない • 効果検証プロジェクトは次の3ステップに分かれる 1. 設計 2. 実施 3. 分析

    • 分析方法とは「分析」ステップの1テクニックの話にすぎない • 考えるべきなのは「プロジェクトのデザイン」なのであり、分 析方法は二の次 29
  13. 思想:初学者でも手に入る判断軸が必要 • 統計的仮説検定はソフトウェア的支援が厚く初学者でも扱いやすい • 代替方法は、分析コストがあがってしまうところが気に入らなかった • 「仮説検定をしないで、推定値と分散を見て判断しましょう」 → そんなことができる人が現場に多いなら、そもそもこの書籍は要らない •

    「ベイズ的手法を用いましょう」 → 現状だと分析コストが高い • 推定値の不確実性の解釈よりも、推定値の解釈にコストを割くべき • どういう方法をとっても「不確実な結果」が「確実な結果」になることはない。 • 10%有意にすらならない推定値はどうあがいても不確実な結果 • それならば、収集したデータと向き合う時間を増やすべき • 1%有意な推定値でも、その推定値が得られたメカニズムは考えないといけない 34
  14. 話題の取捨選択を左右した考え ① データ分析チームは必ずしも効果検証の専門家によって構成されて いない 施策を行えば、否が応でもやらないといけないのが効果検証 そのため、様々なバックグラウンドの人をエンパワーする必要がある ↓ • 初学者でも(ギリ)読めるように難易度調整 •

    操作変数/サンプルサイズ計算/デルタメソッドは扱わない • 割当方法やそれに合わせた分析は誤魔化して紹介 • 妥当性を確認する手法を徹底して紹介する • A/Aテスト、リプレー、バランステスト… 36
  15. 実務で役にたつ ≠ 「ドメイン知識」的現場主義 • 「実務で役にたつ」と称していると、“実務”的な現場主義を招く ≒「現場」で手に入る「生」の知識こそが大事なのであって、象牙の塔的な 因果推論テクニックは優先度が落ちる!? • 一面の真実ではありつつ、「現場主義」にも問題あり •

    「ドメイン知識が重要」などといって具体的な指針示せない分析者は最も Low-Value • この問題意識を提示/答えようとしたのが問題作である第6章 • “闇堕ちするデータサイエンティスト”と称した • データ分析者は専門家としての責務を果たすべき。 • 専門家じゃないと答えられない問題や状況は存在する。 そこに責任と矜持を持つ。 38
  16. 「誰がどのように読むか」を考えて パフォーマティブ/行為遂行的な本になることを意図しました • 書籍としての想定 • サイレントマジョリティに向けて書きたい: 現時点で効果検証に詳しくないが、やらなきゃいけない人 • 期待している読まれ方 •

    「これ以上はマニア向けの知識だな」という境界線を引き、実務で付加価値を創出す るために必要な最小公約数的な知識集合を身につけてもらう • それは理論的知識が果たせる役割の矮小さを意味しない • 現場主義も問題を含む。理論と現場の両方を理解していることこそが実務 者に求められる。 • そのための展望を6章、通称ポエムパートに託した • 初学者に阿った過度な簡単化はしない。むしろ頑健性の確認という視点を 啓く。 39