Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DMMにおけるABテスト検証設計の工夫

Avatar for ishimura-ryota ishimura-ryota
September 19, 2025

 DMMにおけるABテスト検証設計の工夫

DMMでは、データアナリストがABテストの検証設計を監修し、事業の意思決定を支援しています。

本発表では、検証設計や効果検証における運用上の工夫に加え、AAテストの失敗や外れ値ユーザーによる悪影響など、検証過程で発生した課題にどう対処し、より精緻な効果検証に繋げてきたのか、実際のテスト事例と共に紹介します。

Avatar for ishimura-ryota

ishimura-ryota

September 19, 2025
Tweet

Other Decks in Science

Transcript

  1. © DMM 自己紹介 • 石村遼汰 • 経歴 ◦ 合同会社DMM.com ▪

    2021 ~ 2024: 動画PPVサービスのデータアナリスト ▪ 2025 ~ : 検索・レコメンドチームのデータアナリスト ◦ 一橋大学経済学研究科(非常勤研究員) ▪ 2023 ~ : 企業間取引データを用いた分析の実行支援 • 興味・関心 ◦ 統計的因果推論、ABテスト • 趣味 ◦ お笑い(劇場観に行く、ラジオ聴く、 YouTube見る) 2 X: @Xc6Da Zenn: @hanata
  2. © DMM 社内のデータ分析組織 データ戦略部・データ活用推進部が中心となってデータ分析を行う。 8 データ戦略部 事業A チーム データ活用推進部 データサイエンス

    グループ データスチュワード系部署 事業B チーム 検索 チーム レコメンド チーム 事業分析 グループ PF横断分析 グループ
  3. © DMM ABテストの活用状況 データ戦略部・データサイエンスグループが 1 ~ 3本/月実施している。 14 • データ戦略部の実施施策

    ◦ サイト内UI/UX改善 ◦ マーケティング施策 ▪ ポイント / クーポン配布による LTV最大化 ▪ サービス間の相互送客施策 • データサイエンスグループの実施施策 ◦ 検索・レコメンドのロジック改善 ▪ 購買済み商品の除外 ▪ リアルタイム推論の導入 • 実験成熟度モデルにおけるクロール ~ ウォークフェーズにあたる。 フェーズ ABテスト実施頻度 クロールフェーズ 1回/月(10回/年) ウォークフェーズ 1回/週(50回/年) ランフェーズ 1回/日(250回/年) フライフェーズ 1,000回/年
  4. © DMM ABテストの目的 施策効果の精緻な計測に加えて、重要仮説の検証を目的とする。 15 • リソースが限られているため、施策立案段階で売上リフトの大きさや仮説の重要度を鑑み て施策の優先度が決定される。 ◦ 󰢃

    細かな改善のテストを沢山実施して何でもABテストで検証する。 ◦ 󰢏 得られるリターンの大きい仮説を精度高く検証していく。 • 1回のテストで質の高い意思決定に繋げるべく、検証設計のアップデートを行うことで検 証精度を高めてきた。
  5. © DMM tips①:交互作用を考慮したスケジュール調整 余計な交互作用が発生しないよう、テストスケジュールを決定する。 19 • 稀にABテストの実施対象の場所が被ってしまうことがある。 ◦ e.g. 検索のロジック改善と検索結果ページの

    UI改善 • (分析)技術的には、並列して複数のテストを実施しても効果検証は可能。 ◦ 適切にAAテストを実施し、交互作用を考慮した分析を行う。 • ABテストの実施本数が多くないため、時期をずらして施策を実施している。 ◦ 余計な交互作用が発生しない状況を作り出して、分析工数を小さくする。 • 改善箇所が被らない場合は、原則テストスケジュールを調整せずに実施する。
  6. © DMM tips②:全体KPIを見て部分最適を避ける。 改善箇所の利用に関する KPIに加えて、全体 KPIを計測する。 22 • 改善箇所のKPIを計測するのは自然な発想である。 ◦

    e.g. レコメンドロジック改善であればレコメンドのクリック・経由売上を計測する。 • 我々のミッションは全体売上を改善することである。 ◦ 󰢃 レコメンドの売上を上げる。 ◦ 󰢏 レコメンドの改善を通じて全体の売上リフトに貢献する。 • 全体KPIを見て意思決定を行うことで、部分最適やカニバリゼーションが起きた施策のロー ンチを避けている。
  7. © DMM tips②:全体KPIを見て部分最適を避ける。 カニバリゼーションの発生により施策のローンチを見送った例。 23 • SPの商品詳細ページ設置レコメンドを、ページ上部に設置するABテスト。 ◦ SPでは商品説明やレビューの画面占有率が高く、レコメンドに到達するまでに距離があった。 •

    レコメンドのクリック/経由売上は大きく増加したものの、全体ARPUは変化なし。 ◦ 他の経路とカニバリゼーションが発生。全体 ARPUリフトがないため、施策はローンチせず。 購買ボタン 作品情報 商品画像 レビュー レコメンド 購買ボタン レコメンド 商品画像 作品情報 レビュー
  8. © DMM tips③:有意差検定に拘らない p値だけ見て機械的な意思決定を行わない。 24 • 有意水準5%で仮説検定を行っているものの、厳密な運用にはなっていない。 ◦ 教科書的にはp=0.06であれば有意差なしとして施策をローンチすべきではない。 ◦

    ビジネス的に言えば p=0.04もp=0.06も大差なく、どちらも差があると言えることがほとんど。 • ABテストの目的は手続きを守ることではない。 ◦ 󰢃 手続きを重視して施策のローンチを厳しくする ◦ 󰢏 ネガティブじゃない かつ 意義ある施策は積極的に Goサインを出したい • 複数のKPIの時系列推移を見て判断すれば、誤った意思決定は避けられる(と信じてい る)。 • 施策の実施本数が多くないので、機械的な判断に固執する必要はない。
  9. © DMM tips③:有意差検定に拘らない p>0.05で有意差なしだったが、総合的な判断でローンチした例。 25 • 検索結果からネガティブジャンル作品を除外する検索ロジック変更のABテスト。 ◦ ネガティブジャンル:ユーザーが苦手とする /無関心なジャンル

    • メインKPIである全体ARPU(来訪UUあたり全体売上)は p=0.11だった。 • ARPUの時系列推移から効果がありそうなこと、元々事業部から要望があった施策だった ことからローンチを決定。
  10. © DMM 変更点②:分析単位の変更 分析単位とランダム化単位が異なっているのが原因だった。 32 • ユーザー割り振りはユーザーIDをハッシュ化した値に基づいて実施。 • 各KPIはセッション単位で定義・算出されていた。 ◦

    ログに占めるヘビーユーザーの割合が大きい状況。 ユーザーA セッション数: 14 売上: 4,000円 ユーザーB セッション数: 1 売上: 2,000円 セッション単位 ARPU: 400円 (4,000 + 2,000) / (14 + 1) ユーザー単位 ARPU: 3,000円 (4,000 + 2,000) / 2