Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Ad-DS Paper Circle #7

Yusuke Kaneko
March 30, 2025
1.4k

Ad-DS Paper Circle #7

広告輪読会第七回スライド

Yusuke Kaneko

March 30, 2025
Tweet

Transcript

  1. A/Bテストとバンディットアルゴリズムの違い A/Bテスト • 固定的に集めたデータをもとに、どちらが良いか比較 • ある程度期間を設けてから結果を判定し、最終的に片方を選ぶ • テスト期間中は、性能の低い方を表示するリスクがある バンディットアルゴリズム •

    データを取りながら、その時点で成績の良い方へ配分を増やしていく • 途中結果を見て動的に割り振りを変えるため、より早く利益を最大化しやすい • 「探索(どちらが良いか検証)」と「活用(より良い方に集中)」を同時に行う方法 「探索(どちらが良いか検証)」と「活用(より良い方に集中)」を同時に行う方法 をバンディットアルゴリズムと呼んでいる
  2. 多腕バンディッド問題とは? 定義 複数の選択肢(アーム) があり、各アームを選んだときに得られる 報酬 は未知だけれど一定の確率で与えられる 探索( Exploration): どのアームが高い報酬を生むのか知るために試し続けること 活用(

    Exploitation): 試しつつ良いアームが分かってきたら、それを優先して報酬を増やすこと 目的: 全体の報酬(成果)を最大化する 具体例:広告配信 状況: 複数の広告バナー( Ad A, Ad B, Ad C など)を用意し、どれがもっともクリック率やコンバージョン率を高めるかを知りたい 対応関係: アーム : 各広告バナー, 報酬: ユーザがクリックした、または購入した、などの成果 狙い: 高い成果が期待できるバナーを「活用」しながら、まだ試していないバナーも一定の割合で「探索」する テスト期間中の機会損失をできるだけ抑えつつ、どんどん良い広告を多く配信して収益を高める
  3. Case Study 1: Adaptive Designs & Inference 背景 新メッセージ B

    と従来メッセージ A を比較したい Thompson Sampling 等のバンディット手法により、良さそうな方へ自動的にトラフィックを増やす 問題 トラフィック配分の偏り : “良い” とされた施策に大半が振られ、もう一方のデータが不足 時系列変動(非定常性) : 日ごとに真の平均が変動 →シンプソンのパラドックスに陥る 推定誤差: 有意差検定を実施しても、偏ったデータにより誤った結論へ導かれやすい 教訓 実務で レグレット最小化(早期集約) と 推定の厳密性 はトレードオフ Always-Valid な信頼区間 など、非定常性にもロバストな推定技術が必要 後から検証可能なデータ枠 の確保や、段階的な探索・除去アルゴリズムの設計が重要
  4. Case Study 2: Real Life Time Variation 背景 産業界の実験データは、完全に定常でも完全に adversarial(悪意的)でもない

    “中間” 的な性質を示す マーケティング等の実験では日ごとの集客・購買行動が大きく変動し、施策間の性能差も日々変化しうる 問題 非定常性: 時系列で平均が変動するため、特定の日に有利な施策が他の日では不利になる データの不一致 : 実験期間中に利用者層や外部環境が変化 → 1つの施策評価が通期で一貫しない 潜在的混同行: 隠れた要因の影響を適切にモデル化せずにデータ解釈すると、誤った結論を導く可能性 教訓 いつでも最適な施策が同じとは限らない : 非定常な環境を前提に実験設計が必要 Always-Valid な推定手法・段階的な探索設計を活用し、時間経過による揺らぎを考慮 カウンターファクチュアル最適施策の識別が依然重要であり、実験データのタイミングやサイクルを十分に検証する必要がある
  5. Lessons Learned “Regret Minimization” だけでは不十分 実験の本来の目的は、今後の意思決定に役立つ「正しい推論や知見」を得ること。 レグレット最小化に特化したアルゴリズム(最適な施策を早期に見つけることを目指す)だけでは、真に有意な結論を得るまでに想定以上の時間を要したり、平 均値の推定がバイアスを含む場合がある。 バンディット運用の注意点 多くの実験システムは、日次や週次でバッチ的にモデルを更新するため、ある特定の更新日が実験全体のトラフィック配分や推論に大きく影響しがち。

    短期間の実験では、初期数日の結果だけで配分が極端に偏り、以降の推測に歪みが生じるリスクがある。 確率的バンディット (Stochastic Bandit) 手法はしばしば失敗する 一般的にレグレット最小化を狙うバンディット手法は、バックグラウンドに「施策の効果が一定(定常的)」という仮定を置くことが多い。 現実の産業環境では、時間とともに変化が生じる非定常性や、適応的に集めたデータのバイアスなどの理由で、最適化に失敗するケースが珍しくない。 AAテスト(同一施策同士の比較)など適切な比較基準が無いと、問題に気付かないまま失敗が進行してしまう場合がある。
  6. 4.2 Online Experiments: Theme 2 – Efficient Inference & Finding

    the Best 実験3: 早期排除の効果 • 結果: ◦ CGSEは3週間で最適腕を特定(図6)。 ◦ 信頼区間の縮小に伴い、サブ最適腕を逐次排除(図6b)。 • ビジネス応用 : ◦ 早期終了可能で意思決定速度向上。 Key Metrics: • Always-Valid CI: 下限値が0を超えた時点で最適腕確定。
  7. 4.2 Online Experiments: Theme 2 – Efficient Inference & Finding

    the Best 実験4: 極端な性能差のケース • 状況: ◦ 腕1-2は性能が極端に低い(図7)。 • 結果: ◦ CGSEは3日目で腕1-2を排除(図7b)。 ◦ 最終的に90%トラフィックを最適腕3-4に集中。 • 効率性: ◦ 均等配分に比べ、実験期間を50%短縮。