Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Media-Mix-Model-Modified/メディアミックスモデルの利点と限界

 Media-Mix-Model-Modified/メディアミックスモデルの利点と限界

ハイパーリンクがあるのでPDFダウンロードしてください

ソースコードはパッケージ化しています
https://github.com/Gedevan-Aleksizde/MediaMixModelModified

2021/5/30: 発表後修正

S-Katagiri

May 29, 2021
Tweet

More Decks by S-Katagiri

Other Decks in Programming

Transcript

  1. 宣伝 1.『R Markdown クックブック』を翻訳した • R Markdown の活用事例集です • “Bookdown”

    や “Definitive Guide” もそのうち翻訳したい • “knitr のドキュメント” も翻訳しています 2. このスライドは rmdja パッケージで作成しました • 意外と煩雑な rmarkdown での日本語文書の設定をなるべく自動化す ることを目的にしたパッケージ 3. エッ! まだ R のグラフの文字化けで消耗してるって!? • ragg や fontregisterer を使うとよいことですよね? • 参考 1, 2 4
  2. 今日話すこと 1. Jin, Wang, et al. [5] “Bayesian methods for

    media mix modeling with carryover and shape effects” の解説 2. 実装と具体的な使い方 3. レポートの問題点と改善提案 • 回帰分析の基本的な理解があったほうが良い • 詳しくない人は中盤の技術的な箇所は適当に聞き流してください • マーケティング関係の理解があったほうが良い • 逆に私はあまりない (言い訳) • stan のヘビーユーザーには物足りないかも • (言い訳その 2) 5
  3. 単純なメディア・ミックス・モデル • 毎日の費用と売上で回帰分析すればいいのでは? • 𝑀, 𝑇: 支出したチャネルの数と期間 • 𝑦𝑡 :

    日付 𝑡 の売上 • 𝑥𝑚,𝑡 : 日付 𝑡, メディア 𝑚 への支出額 • 回帰係数 𝛽𝑚 が広告の限界効果!! 𝑦𝑡 = 𝛽1 𝑥1,𝑡 + 𝛽2 𝑥2,𝑡 + ... + 𝛽𝑀 𝑥𝑀,𝑡 7
  4. adstock 関数 • 𝑥𝑡 を直近 𝐿 期間の重み付き移動平均で変換する adstock(𝑥𝑡 ; 𝑤,

    𝐿) ∶= 𝑤𝑚 (L)𝑥𝑡 ∑ 𝑤𝑚 (1) • 𝑤𝑚 (L) の 𝐿 までの各重みは非負 • 重み 𝑤 の付け方は任意, 今回は幾何減衰を採用 • 𝑤𝑔 𝑚(𝑙; 𝛼𝑚 ) ∶= 𝛼𝑙 𝑚 • これをさらに変形して 𝑤𝑑 𝑚 (𝑙; 𝛼𝑚 , 𝜃𝑚 ) ∶= 𝛼(𝑙−𝜃𝑚 )2 𝑚 にする • 𝛼𝑚 : 持続率 • (機械学習やノンパラメトリックモデルで使われる動経基底カーネルと 同じ) 10
  5. hill 関数の導入 • 支出の増大に対して飽和点のある形状 へ変換 Hill(𝑥𝑡,𝑚 ; 𝐾𝑚 , 𝑆𝑚

    ) ∶= 1 1 + (𝑥𝑡,𝑚 /𝐾𝑚 )−𝑆𝑚 • メディアによって飽和点が違うと仮定 • 𝑆𝑚 > 0: 傾き • 𝐾𝑚 > 0: 飽和のタイミング • さらにスケールパラメータ 𝛽𝑚 を 掛ける 0.0 0.5 1.0 1.5 x k = 0.5, s = 0.5, b = 0.3 k = 0.5, s = 1, b = 0.3 k = 0.5, s = 2, b = 0.3 k = 0.95, s = 0.748, b = 0.39 k = 1.5, s = 2, b = 0.8 図 1: hill 関数の例 12
  6. 最終的にこういうモデルになる • 𝑥∗ 𝑡,𝑚 は adstock で変換した 𝑥𝑡,𝑚 • adstock

    ‑> hill と hill ‑> adstock どちらが適切かは断言できない • 2 つ目の ∑ ⋯ はその他の説明変数 (商品の価格とか) • 売上額 𝑦𝑡 は対数変換したほうが当てはまりが良い • 誤差項 𝜀𝑡 を正規分布とするため log(𝑦𝑡 ) = 𝜏 + ∑ 𝑚 𝛽𝑚 Hill(𝑥∗ 𝑡,𝑚 ; 𝐾𝑚 , 𝑆𝑚 ) + 𝐶 ∑ 𝑐=1 𝛾𝑐 𝑧𝑡,𝑐 + 𝜀𝑡 13
  7. あれ? じゃあ 𝛽 でリターンを計算できなくない? • 広 告 支 出 に

    対 す る リ タ ー ン Return on Ad Spend (ROAS) と marginal ROAS (mROAS) が計算可能 ROAS 𝑚 = ∑ [𝑡0 ,𝑡1 +𝐿−1] ( ̂ 𝑌 (𝑥𝑡,𝑚 ) − ̂ 𝑌 (𝑥𝑡,𝑚 ̲̲̲̲ )) ∑ [𝑡0 ,𝑡1 ] 𝑥𝑡,𝑚 mROAS 𝑚 = ∑ [𝑡0 ,𝑡1 +𝐿−1] ( ̂ 𝑌 ( ̃ 𝑥𝑡,𝑚 ) − ̂ 𝑌 (𝑥𝑡,𝑚 )) ∑ [𝑡0 ,𝑡1 ] 𝑥𝑡,𝑚 • 𝑥𝑡,𝑚 ̲̲̲̲ は比較レベル, 通常はゼロ •「もし広告費を出さなかったら」との比較 • ̃ 𝑥𝑡,𝑚 は実際の値から 𝑎 % 増加させた額 •「もし広告費を 𝑎% 増やし (減らし) たら」 14
  8. 先行事例 • 注: 晒しものにしたいという意図はないです • 面白いフレームワークが活用されずに埋もれるのが MOTTAINAI • ushi‑goroshi.hatenablog.com 最適化の計算が怪しい

    • tjo.hatenablog.com 最終結果の掲載が少ない • sibylhe/mmm_stan (towardsdatascience.com, これのみ pystan) 元のモデルの簡略バージョンの結果しか検証していない 17
  9. R の環境設定 • R 4.0.5 (4.1 ではない) • rstan [3]

    は 2.21 • 必要な関数の多くはパッケージにまとめた • リンク先の指示に従いインストール • stan は OS/外部ライブラリ依存が強いので保証はできない • 乱数の結果の完全一致は難しい • 動かない等のバグ報告は歓迎 • チュートリアルは doc/main.nb.html を参考に 18
  10. 最近の rstan の注意 • なんか RStudio v1.4 だとよくクラッシュする?(参考) • rstan_options(javascript

    = F) が有効説 • autowrite = T を諦めるしかない説 • あるいは cmdStanR を選ぶ? • 軽量な Stan インターフェイス • ただし rstanarm, brms は rstan 依存 19
  11. 修正内容 • 著者のコードを以下の点で修正 1. “<-” 代入演算子を “=” へ • 将来廃止される予定のため

    2. 不要な変数の削除 3. バグトラッキングしやすくする 4. (計算の効率化は時間が足りなかった) 5. ROAS/mROAS の計算処理を追加 20
  12. Stan のバグトラッキング • nan になったとか無限大になったとかでエラーが出る • (個人的な経験則) 計算時のエラーはだいたい 1. 初期値や事前分布の値域が不適切

    2. データの値が不適切 • 変数に定義域を与える row_vector<lower=0>[max_lag] X_media[N, num_media]; • print, reject を使う (7.12) 22
  13. Stan のバグトラッキング: 具体的な修正 • 支出 X は負値にならない • 原著には書かれてないが, shape

    関数の性質から • <lower=0> を設定 • 傾きパラメータ 𝑆 (slope) や 𝐾 (半飽和点) も負値にならない • reject 文を使う if (slope[media] < 0) reject("slope[", media, "] must be positive; • サンプリングを reject するだけで中断はしない • 対話的に修正できないので「かもしれないコーディング」を心がける 23
  14. Stan のバグトラッキング • vb() で変分ベイズ法で計算 • MCMC と比べて非常に早い • コーディングというより運用上のテクニック

    • stan 公式「あくまで近似なので MCMC でも収束するようにしてね」 • MCMC の予行演習みたいな位置づけ • 変分法でうまく行かなかったら MCMC でも多分失敗 24
  15. データの構造 • こんな構造のデータがあるという前提 • media-* はチャネルごとの支出 • price は共通の説明変数 •

    sales は売上額 week sales price media‑1 media‑2 media‑3 2020‑05‑13 11.83914 2.9480380 1.7426992 0.3887749 0.1834057 2020‑05‑20 10.70669 2.6773373 0.0940272 0.9092068 0.3765928 2020‑05‑27 10.91660 3.4306232 3.1730597 0.2946631 4.0993204 2020‑06‑03 12.57595 3.0419810 0.0295556 0.3375569 1.5000075 2020‑06‑10 12.75195 0.9962776 1.4754346 0.5900986 0.0322262 2020‑06‑17 12.79219 ‑0.0503101 3.5917583 0.2150804 0.322193126
  16. stan の計算実行 # コンパイル model <- stan_model( file = "hogehoge.stan",

    model_name = "original", verbose = T ) # 変分法 res_vb <- vb( object = model_origin, iter = 20000, data = to_stan_data(df_out, L = 13) ) # NUTS res <- sampling(model, data = to_stan_data(df_out, L = 13)) 27
  17. 事後診断には bayesplot パッケージ • 昔の参考書 [9] や私の昔のブログでは ggmcmc [1] を使用

    • 今は bayesplot [2] のほうが使いやすい • 構文が簡単 (使用例一覧) • ランク正規化プロット [7] などをサポート 29
  18. 要点: ̂ 𝑅 だけで判定は BAD • 従来は ̂ 𝑅 だけ見て

    1.05 未満なら OK • ランク正規化/畳み込み ̂ 𝑅 も要確認 • どれかが大きいと収束してない可能性 • トレースプロットもなるべく見る • 詳細は Vehtari, Gelman, et al. [7], bayesplot のドキュメント • または 私の解説 x[3] x[4] x[1] x[2] x[3] x[4] x[1] x[2] chain 1 2 3 4 図 2: トレースプロットとランク 正規化ヒストグラム 30
  19. bayesplot のコード • res = stanfit オブジェクト • regex_pars は正規表現マッチでパラメータ取得

    • Rhat() は 3 種類の ̂ 𝑅 の最大値を返す • しかしなぜか stanfit に対応していない require(bayesplot) mcmc_trace(res, pars = "tau") mcmc_rank_overlay(res, regex_pars = "mu") mcmc_rhat( apply(rstan::extract(res, pars = "mu", permuted = F, inc_warmup = T), 3, Rhat) ↪ ) + yaxis_text(hjust = 1) 31
  20. ̂ 𝑅 の表示 • 3 種類の ̂ 𝑅 のうち最大の値を使用 slope[2]

    slope[3] slope[1] 1.00 1.05 R ^ R ^ ≤ 1.05 R ^ ≤ 1.1 R ^ > 1.1 図 3: 𝑆𝑚 の ̂ 𝑅 32
  21. ランク正規化プロット beta_medias[3] beta_medias[2] beta_medias[1] 0 1000 2000 3000 4000 0

    20 40 60 0 20 40 60 0 20 40 60 Rank chain 1 2 3 4 図 4: 𝛽𝑚 のランク正規化ヒストグラム 33
  22. (m)ROAS の計算 • R で計算関数を作成 • stan 内でも可能だが使いづらい • ROAS(),

    mROAS() を用意 • 現時点ではあまりスマートな設計でない⋯ • L の手動入力 • とても遅い roas <- ROAS(res, df_out, L = 13, inverse_trans = exp) mroas <- mROAS(res, df_out, L = 13, inverse_trans = exp) 35
  23. 結果 • ROAS/mROAS の分布 0 50000 100000 150000 200000 250000

    media-1 media-2 media-3 media ROAS -250000 -200000 -150000 -100000 -50000 0 media-1 media-2 media-3 media mROAS 36
  24. 1. 最適配分を知ることは可能か •「推定したパラメータを固定して max 𝑥 ̂ 𝑌 (𝑥) から最適な予算配分 𝑥

    を 求める」としている • データにない 𝑥𝑚,𝑡 を与えて売上の予測値を見ている (= 外挿) • 外挿がどの程度妥当かの評価は難しい • 因果推論の観点からはかなり怪しい • 観察データのみで結論するのはかなり厳しい • 参考: 最近邦訳のでた Rosenbaum [6] • 他の人もあまりこの方法には触れていない⋯ 39
  25. 2. メディア「ミックス」していない • メディア間のシナジー効果はないと仮定 • IID の仮定につながる • 似たような問題意識を持っている人はいる (参考)

    • モデルはあくまで近似, 目的に応じて使用 • シナジー効果の測定に興味があるか • 無視したシナジー効果の実際の影響がどの程度か 40
  26. 3. データが非定常かどうか • マーケティングでは非定常な時系列データを扱うことも多そう • Hanssens, Parsons, and Schultz [4]

    なんかを読んだ感想 • 原著では乱数を ARIMA で生成したとある. • しかし I がゼロ次のデータに見える • ランダムウォークはこうはならない • 目視は厳密ではないが元データ非公開 ARIMA(1, 1, 1) ARMA(1, 1) 0 25 50 75 100 -10 -5 0 5 -2 -1 0 1 2 time 41
  27. 使用上の注意についての要約 • MMM のネガキャンをしたいわけではない • 完璧なモデルはまず存在しない • 用法を守って使いましょう, という意図 1.

    最適配分を求める際はデータをどう取得したかに注意 • 観察データではなく実験データを使う • 測定期間中に予算配分を操作しないとか 2. シナジー効果がないような状況が必要 •「メディア」 「チャネル」の定義に注意 3. データが非定常な場合はどうなるか未検証 42
  28. その他の言い訳 • 本当は後半の「より大きな問題点」のほうが優先すべきだったかも • しかし完成させるには時間が足りない • モデルの当てはまりの評価もできるようにしたかった • BIC と

    bridge/path sampling (Vehtari のコメント) の計算処理とか • 応用事例や類似モデルのサーベイもしたかった • Hill/Shape 変換なしの比較とか • いろいろな乱数データで当てはまりを確認したかった • 都合の良いデータだけならなんとでも言える • どの程度ロバストなモデルかは応用で重要 • 今回上げた MMM の問題点・課題を解消する具体的方法まで考えたか った⋯ 43
  29. [1] Fernández‑i‑Marín, Xavier (2016). “ggmcmc: Analysis of MCMC Samples and

    Bayesian Inference”. In: Journal of Statistical Software 70.9, pp. 1–20. DOI: 10.18637/jss.v070.i09. [2] Gabry, Jonah, Tristan Mahr (2021). ”bayesplot: Plotting for Bayesian Models”. R package version 1.8.0. URL: here. [3] Guo, Jiqiang, Jonah Gabry, Ben Goodrich, Sebastian Weber (2020). ”rstan: R Interface to Stan”. R package version 2.21.2. URL: here. [4] Hanssens, Dominique M. Leonard J. Parsons, Randall L. Schultz (2002).”Market Response Models: Econometric and Time Series Analysis”. Kluwer Academic Publishers. ISBN: 978‑0‑7923‑7826‑6DOI: 10.1007/b109775. URL: here (visited on 05/14/2021). 阿部誠・パワーズ恵子訳『マーケティング効果の測定と実践』 . 有斐閣 . [5] Jin, Yuxue, Yueqing Wang, Yunting Sun, David Chan, Jim Koehler (2017). ”Bayesian Methods for Media Mix Modeling with Carryover and Shape Effects”. Google Inc. URL: here. 44
  30. [6] Rosenbaum, Paul R. (2017).”Observation and Experiment: An Introduction to

    Causal Inference”. Harvard University Press. ISBN: 978‑0‑674‑97557‑6. 阿部貴行・ 岩崎学訳『統計的因果推論入門』 . 2021 年. 共立出版 . [7] Vehtari, Aki, Andrew Gelman, Daniel Simpson, Bob Carpenter, Paul‑Christian Bürkner (2021). “Rank‑Normalization, Folding, and Localization: An Improved ̂ 𝑅 for Assessing Convergence of MCMC”. In: Bayesian Analysis. ISSN: 1936‑0975. DOI: 10.1214/20‑BA1221. URL: here (visited on 04/07/2021). [8] Wickham, Hadley (2021). ”tidyverse: Easily Install and Load the Tidyverse”. R package version 1.3.1. URL: here. [9] 松浦, 健太郎 (2016).”Stan と R でベイズ統計モデリング”. 共立出版 45