最近のUplift Modeling手法にRでトライ

最近のUplift Modeling 手法にRでトライ Japan.R 2024 2024/12/7 保坂桂佑

• 保坂桂佑(X: @free_skier) • ヘルスケアスタートアップでデータサイエンティストをしています • 趣味：スキー、インドカレーづくり、キーボード自作 • 著書(共著)に「Kaggleで勝つデータ分析の技術」があります自己紹介

このLTで話すこと • Li, K., & Zhu, L. (2024, May). A
New Transformation Approach for Uplift Modeling with Binary Outcome で精度の良いUplift Modeling の新しい方法が提案された • 概要を紹介 • 簡単な実験結果を紹介

Uplift Modelingとは統計的因果推論におけるConditional Average Treatment Effect(CATE) を求める手法 CATEは以下の式で表されるある特徴 Xi
= x を持つ対象への介入効果を推定する手法と言える

変数変換によるアプローチアクション有無Yと介入有無Wに対する変数変換で求めたZ*を目的変数とした回帰モデルを作ると、CATEを推定するモデルが作れる (pは傾向スコア) ケースごとのZ* の値

情報の無駄をなくす前ページの方法では「介入しても来なかった」「介入しないで来なかった」が同じ扱いだった「介入しても来なかった」ことは、「介入しないで来なかった」ことよりは悪いので、良し悪しの重みをつける方法が提案された A New Transformation Approach for
Uplift Modeling with Binary Outcome ケースごとのZ* の値

Cを変えるとどうなるか C=0は旧手法と同じ。Cを大きくすると、事例の評価がファジーになる

実験 • 介入効果がわかっている簡単なデータを作り、介入効果の推定精度を比較 • 傾向スコアをロジスティック回帰で、介入効果の推定を線形回帰で実施ダミーデータのグラフィカルモデルダミーデータを作るコード

結果 • Uplift Modelingの評価にはQini曲線とその下の面積を使う (ゲインチャートやAUCのようなものだと思ってください) • 元の方法よりもQini曲線下の面積が大きくなった(=高精度) • C=0.15の結果

Cをどんな値にすると精度がよくなるの？精度を最大化するCがあるみたい精度を最大化するC

いつでも新手法のほうが精度いいの？ • いろいろなシードのダミーデータで同じことを実験 • 旧手法の方が精度が良いこともあった。Cをチューニングするのが良さそう

まとめ • A New Transformation Approach for Uplift Modeling with
Binary Outcome で精度の良いUplift Modelingの新しい方法を紹介 • 簡単な実験で旧手法より精度が良くなることを確認 • データごとにCに最適値がありそう • データによっては旧手法(C=0)のほうが高精度の場合もある

ご清聴ありがとうございました！

最近のUplift Modeling手法にRでトライ

最近のUplift Modeling手法にRでトライ

hskksk

Other Decks in Technology

Featured

Transcript

最近のUplift Modeling 手法にRでトライ Japan.R 2024 2024/12/7 保坂桂佑

• 保坂桂佑(X: @free_skier) • ヘルスケアスタートアップでデータサイエンティストをしています • 趣味：スキー、インドカレーづくり、キーボード自作 • 著書(共著)に「Kaggleで勝つデータ分析の技術」があります自己紹介

このLTで話すこと • Li, K., & Zhu, L. (2024, May). A

Uplift Modelingとは統計的因果推論におけるConditional Average Treatment Effect(CATE) を求める手法 CATEは以下の式で表されるある特徴 Xi

変数変換によるアプローチアクション有無Yと介入有無Wに対する変数変換で求めたZを目的変数とした回帰モデルを作ると、CATEを推定するモデルが作れる (pは傾向スコア) ケースごとのZ の値

Cを変えるとどうなるか C=0は旧手法と同じ。Cを大きくすると、事例の評価がファジーになる

実験 • 介入効果がわかっている簡単なデータを作り、介入効果の推定精度を比較 • 傾向スコアをロジスティック回帰で、介入効果の推定を線形回帰で実施ダミーデータのグラフィカルモデルダミーデータを作るコード

結果 • Uplift Modelingの評価にはQini曲線とその下の面積を使う (ゲインチャートやAUCのようなものだと思ってください) • 元の方法よりもQini曲線下の面積が大きくなった(=高精度) • C=0.15の結果

Cをどんな値にすると精度がよくなるの？精度を最大化するCがあるみたい精度を最大化するC

いつでも新手法のほうが精度いいの？ • いろいろなシードのダミーデータで同じことを実験 • 旧手法の方が精度が良いこともあった。Cをチューニングするのが良さそう

まとめ • A New Transformation Approach for Uplift Modeling with

ご清聴ありがとうございました！