Upgrade to Pro — share decks privately, control downloads, hide ads and more …

効果検証、入門の入門(後半)

Yusuke Kaneko
July 10, 2024
330

 効果検証、入門の入門(後半)

2024-07-09にforkwellさんにお招きいただいた話した内容です。
動画は下記で確認できます。
https://www.youtube.com/watch?v=QWA_G85a0Y0

Yusuke Kaneko

July 10, 2024
Tweet

Transcript

  1. 本日のお品書き • 内容 ◦ 効果検証とはどのような分野か? ◦ 技術としての効果検証はどのように発展してきたか? ◦ 効果検証実務において直面する課題について ◦

    本の宣伝 • 想定しているターゲット ◦ データ分析や効果検証を学びたいと思っている人 ◦ 実務における効果検証のありかたに悩んでいる人 伊藤パート 金子パート
  2. A/Bテスト • まずはA/Bテストについて考えてみる ◦ 最も代表的な「効果検証」の手法だから • A/Bテストとは? ◦ 2つのバージョン(AとB)を比較して、どちらがより効果的かを判断するための手法 ◦

    以下のプロセスを持つ ▪ ユーザーをランダムに2グループに分ける ▪ 各グループに異なるバージョンを表示 ▪ 2つのグループの比較によって結果を測定する • このランダムな振り分けによってバイアスのない測定が可能になる ◦ 「A/Bテストはゴールドスタンダード」...
  3. 実務でのA/Bテスト • 実務の場でA/Bテストが活用されるようになった背景は ? • 背景 : 「テックカンパニーにおける RCTの再定義としてのA/Bテ スト」

    ◦ IT技術の進展によってデータ収集が格段に安価に ◦ プロダクト開発の方法としてのA/Bテスト ◦ 広告という人に害を与えない(ことになっている)領域での” 実験” ▪ Google, Microsoft etc...
  4. データ収集 • 従来、A/Bテストの対象領域は政策や医学だった ◦ ユーザーを集めるのにコストがかかる ◦ 施策の実行そのものにコストがかかる ◦ データの構築にもコストがかかる •

    一方、テックカンパニーにおいてはいわゆるビッグデータが 得られるように ◦ 大量のユーザーを容易に集められる ◦ 機能リリース = 施策 ◦ データの自動的なロギング • 従来の領域だと被験者が1000 〜10000人単位だったもの が、容易に毎日何百万人の被験者を獲得できるように
  5. プロダクト開発の方法としての A/Bテスト • RIES(2011) ◦ 「リーン」というプロダクト開発のフレームワークを提唱 ◦ その定義にA/Bテストが含まれる • 根底の思想

    ◦ ビジネス仮説に基づく実験を行い、製品を反復的かつ継続的 にデプロイすることで進化させる ◦ 「実験」= A/Bテスト
  6. 以下の結果は何がおかしい ? • 来訪者の購入率(Conversion Rate)のリフトが337% ◦ 統計的にも有意; p値 = 0.009

    • 一見この結果は(効果差がとても大きくて疑わしいという気持ちを抱くかもしれないが)、効 果があるように見える。 • おかしいところがあるだろうか?
  7. 偽陽性リスク • 結論から言うと、これは偽陽性のリスクが高い ◦ 仮に真の効果が存在したとしても、それを検出できる確率が 3%しかない • 正しくは事前検出力の計算という手続きで必要なサンプルサイズを計算する必要がある • 元ネタは以下

    ◦ Kohavi, Ron, Alex Deng, and Lukas Vermeer. "A/B testing intuition busters: Common misunderstandings in online controlled experiments." Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022.
  8. A/Bテストすら難しい • 他にもこんな落とし穴が ◦ 「効果が出ないからもう少し実験を続けよう」 → ❌ ◦ 「指標Aでは結果出なかったけど分析してみたら指標Bで良くなってるからいいや」→ ❌

    ◦ 「効果が出たから実験を中止しよう」→ ❌ ◦ 「とりあえずトラフィック単位でランダムに分割するような実装にしよう」→ ❌ ◦ 「このテストで指標の改善を目指すぞ!」→ ❌ • 言われれば気づくが、やらかしがちなミスでもある • 安易なA/Bテストは炎上する
  9. よく触れられる手法の例 • 一般的に効果検証の文脈でよく紹介される因果推論手法は以 下である ◦ DID ◦ RDD ◦ 傾向スコア

    ◦ CalusalImpact ◦ 操作変数 • これらの手法は、実際に実務ではどう使われているのだろうか ?
  10. 実務での因果推論の現実 • 実務で実際に(悲しくも)見られる風景: ◦ ツールの間違った利用 ▪ 仮定の成立が怪しい ▪ 手法の使い方が怪しい •

    なぜこんなことが起きてしまうのか ? ◦ 恣意的な結論を導きやすい ◦ そもそも手法の理解や適用が難しい ◦ 仮定の検証が困難であったり不可能だったりする • これらの事例を見てみる
  11. 誤った例その 1 ; 傾向スコアマッチング • 傾向スコアとは? ◦ 本書では扱っていない(...というか扱わないと宣言している) ◦ 施策が割り振られる属性

    (特徴量、共変量 )に対する条件付き確率 のこと ◦ ロジスティック回帰やその他ML手法などを用いてこの確率を推定する • 傾向スコア自体は色々な使われ方がある; 傾向スコアマッチング, IPW etc… • ここでは傾向スコアマッチングの例を扱う スコア 0.02 0.3 0.3 0.9
  12. 誤った例その 1 ; 傾向スコアマッチング • 実務面だと以下の理由が大きい ◦ 特徴量の選択に関しては実務者が 恣意的に選んでよい ◦

    観測できない特徴量についてはバイアスをコントロールで きない ◦ 特徴量の選択によって推定値がかなり変動する • この特徴量選択を乱用することで「恣意的な結論」を導出可能 になってしまうのでは? • リサーチ方面でも批判はある ◦ King and Nielsen(2019)
  13. 誤った例その 2 ; DID • DIDとは? ◦ 本書の4章で紹介 ◦ 施策前後のユーザー群のoutcomeの差の差を取る

    • DIDは、上記のような簡単な集計でも因果効果を導出することができる ◦ 非常に便利だが、これでいいならなぜ A/Bテストなどが必要なのか?
  14. 誤った例その 2 ; DID • 理由: 検証困難な仮定の存在 ◦ パラレルトレンド仮定というものが存在する (図の”同等の変化”)

    ◦ これは、施策がない場合にお互いのユーザー群が同じトレンドを持つという仮定 • この仮定を検証するのはほぼ不可能 ◦ 施策が起きなかったときの反実仮想的なデータの動きを仮定している ◦ 施策前の時系列データがあれば結果の頑健性の確認は可能
  15. 誤った例その 3 ; ストーリードリブン分析 • 次は手法というよりかはoutputの使い方の話 • 先程の傾向スコアの話をクーポン施策の効果分析を行うという例を考えてみる • お題:

    「クーポンを使用する」ことの長期的な店舗来店への効果の分析 ◦ クーポンを配布して、それが使われることで来店頻度が上がるかもしれない ◦ 単純にクーポンを使用したユーザーとそうでないユーザーの比較をしてよい ? 来店頻度上昇?
  16. 誤った例その 3 ; ストーリードリブン分析 • しかし、クーポンは配布されたからといって使われるとは限らない ◦ そもそも来店しなかったり、使い忘れたりなど • クーポンの使用確率が、何らかの属性によって変動すると考えるのが普通

    ▪ 例えばポイ活などの感度が高い世帯持ちなどが使いやすいなど • 単純にクーポンを使ったユーザーかそうでないかのユーザーの比較には 問題がある ◦ 「使用」の効果を推定するのはバイアスを含んだ結果になってしまう
  17. 誤った例その 3 ; ストーリードリブン分析 • 以下の属性を使って、2パターンで傾向スコア分析を回してみた ◦ A: 年齢、結婚の有無、性別 ◦

    B: 年齢、性別 • 結果が以下のようになったとする ◦ A : クーポンの使用による来店への効果は 0 ◦ B : クーポンの使用による来店への効果は 正 • さて、このどちらの結果を採用すべきだろうか ?
  18. 誤った例その 3 ; ストーリードリブン分析 • 分析者側の気持ち ◦ Aで正しくバイアスを制御できていると信じる ? ▪

    傾向スコアの推定がおかしいのではないか ? ▪ 観測できない属性がまだあるのでは ? ◦ クライアントはこの結果を信用してくれるだろうか ...? ▪ 自分でもこの結果に自信が持てない ▪ 「因果推論で分析した」と強弁する ? • Bのほうが話がスムーズに通るなら Bを採用しても自然に見える かもしれない...
  19. 3: 暗黙知の多さ • 効果検証の実践は暗黙知化していることが多い ◦ 効果検証の仮定の成立についてどこまでシビアであるべき か? ▪ パラレルトレンド仮定 ▪

    Unconfoundedness仮定 • 「仮定に厳密すぎて何も言えない」ことは実務において必ずしも正 しくはない ◦ 「この仮定が成立すれば〜〜が言える」 • こういう話は効果検証の教科書にはあまり書かれていない話では ある ◦ 部分識別という分野などはあるが ...
  20. なぜ効果検証は困難なのか (再) • まとめると... ◦ 入門が難しい ◦ 話を統一するのも難しい ◦ 理論を正しく理解して仮定を理解するのも難しい

    ◦ 理解したところでそれを実務で正しく実行するのも難しい ◦ 実務で正しく行われているかを検証するのも難しい • ここまで言われると効果検証を頑張る気がなくなってくるかもしれない ... ◦ 「でもやらないといけない」のは伊藤のスライドで話していた通り
  21. 議論の場の大事さ • 個人的な経験になるが、以下の経験が大事だったと思う ◦ 経済学部での実証論文のゼミ内での輪読 ▪ 仮定の成立やその検証において ▪ 特に経済系の実証論文はこの議論を詳細に行うことの重要性が高い (と思う)

    ◦ 職場での同様の専門性を持つ同僚との議論 ▪ “適切に”A/Bテストができているか? などの議論は常に行えた ▪ 経済系のバックグラウンドに限らず、 DSチームとしてこの議論は行えていた • 要するに議論できる場と人があったことがよかった、ということ