Upgrade to Pro — share decks privately, control downloads, hide ads and more …

効率的な因果推論と意思決定のための実験計画において異質性が果たす役割

 効率的な因果推論と意思決定のための実験計画において異質性が果たす役割

統計関連学会連合大会2021

MasaKat0

April 20, 2025
Tweet

More Decks by MasaKat0

Other Decks in Research

Transcript

  1. 概要 n 目次 1. 因果推論と意思決定のための適応的実験計画 2. 効率的な期待処置効果推定と適応的実験計画 3. 最適腕識別と異質性 Ø

    処置の報酬に何らかの異質性(異質な期待値や分散)がある場合,その 異質性を活用することで,実験をより効率的にできる. 3
  2. 潜在報酬 n 報酬と処置の割り振りを表す確率変数を定義する. • 個人𝑡に処置𝑑 ∈ 1,2, … , 𝑘

    が与えられるときの報酬:𝑌! 𝑑 • 個人𝑡に割り当てられる処置:𝐷! n 観測できる報酬は𝑌! = ∑"∈{%,',…,)} 1[𝐷! = 𝑑]𝑌!(𝑑).つまり, • 実際に割り当てた処置(𝐷! = 𝑑である処置𝑑)だけ𝑌!(𝑑)が分かり, • 割り当てなかった処置(𝐷! ≠ 𝑑である処置𝑑)には𝑌!(𝑑)が分からない. 6
  3. 適応的実験計画において異質性が果たす役割 n 共変量𝑋, にもとづく処置の報酬𝑌!(𝑑)の異質性が実験の効率性の源泉. Ø 研究①:期待処置効果の効率的な推定. • 処置が二種類(𝑘 = 1

    or 2)のみであるとする. • 平均処置効果𝔼 𝑌! 1 − 𝔼 𝑌! 2 の推定量の分散を最小化する. Ø 研究②:漸近最適な最適腕識別 • 高確率でもっとも期待報酬𝔼 𝑌! 𝑘 の高い処置𝑑を見つける. • 今回の発表はこちらがメイン. 11
  4. 期待処置効果の推定量の分散の最小化 n 処置が2つの場合を考える(処置1と処置2) n 期待処置効果𝔼 𝑌, 1 − 𝔼 𝑌,

    2 を精度良く推定することを目指す. • 処置1が効果を調べたい薬,処置2が比較のための偽薬(プラシーボ). • 薬の効果 = 本物の薬を与えた場合と,偽薬を与えた場合の期待値の差. n 推定精度の良い,効率的な実験を計画したい. → そのために以下のような目標を立てる. n 目標:適切な実験で期待処置効果の推定量の漸近分散を最小化する. 13
  5. 期待処置効果の推定量の分散の最小化 n 目標:適切に処置を割り当てることで,推定量の漸近分散を最小化. • 期間𝑡 = 1,2, … , 𝑇にわたって,逐次的に被験者が来訪する.

    • ある期𝑖に訪れる被験者𝑖に処置𝐷! = 1を与える確率を𝑝(𝐷! = 1|𝑋!)とする. n 𝑝(𝐷! = 1|𝑋!)が全ての期間で同じ場合,期待処置効果の推定量の下限は 𝔼 Var(𝑌! (1)|𝑋! ) 𝑝(𝐷! = 1|𝑋! ) + Var(𝑌! (2)|𝑋! ) 1 − 𝑝(𝐷! = 1|𝑋! ) + 𝔼 𝑌! 1 − 𝑌! 2 |𝑋" − 𝔼 𝑌! 1 − 𝑌! 2 # で与えられる(Hahn (2003)). • ここで, Var(𝑌!(𝑑)|𝑋!)は処置𝑌!(𝑑)の条件付き分散. 14
  6. 最適な処置の割り当て確率 n 漸近分散の下限を, 𝑝(𝐷! = 1|𝑋!)の関数として考えて最小化する. n 処置割り当ての確率𝑝(𝐷! = 1|𝑋!)を

    𝑝-./ 𝐷! = 1 𝑋! = Var(𝑌!(1)|𝑋!) Var(𝑌!(1)|𝑋!) + Var(𝑌!(2)|𝑋!) とするとき推定量の漸近分散の下限を最小化できる. 15
  7. 期待処置効果推定のための実験計画 n この処置割り当ての確率𝑝 𝐷! = 1|𝑋! を用いる実験を行いたい. → 𝐕𝐚𝐫(𝒀𝒕(𝒅)|𝑿𝒕)の値が未知なのでこれも同時に推定する必要がある. n

    そのため,以下を同時に行うことで,精度良く平均処置効果を推定できる. 1. 𝒑𝑶𝑷𝑻 𝑫𝒕 = 𝟏 𝑿𝒕 の推定と, 2. 最小化された漸近分散の下限を達成する推定量の構築 • Kato, Ishihara, Honda, and Narita. Adaptive Experimental Design for Efficient Treatment Effect Estimation. • 他にもHahn. Hirano, and Karlan (2011)やvan der Laan (2008)など. 16
  8. 多腕バンディット問題 n 多腕バンディット問題(Multi-armed Bandit Problem; MAB): • 期間𝑡 = 1,2,

    …と𝑘個のスロット(腕・処置)が与えられている状況を考える. • 各期𝑡において𝑘個の腕のなかから1個を選ぶことができる(𝐷! ). • その腕はある確率分布に従ってプレイヤーに報酬𝑌!(𝐷!)を与える. n 期待アウトカムが最大の腕を 𝑑∗ = arg max " 𝔼[𝑌!(𝑑)] と表記する. 18
  9. n 多腕バンディット問題における2つの問題設定. Ø 累積報酬最大化(リグレット最小化): • 報酬を最大化することに関心がある. • 期待値最大の腕𝑑∗,もしくは期待値最大の腕に限りなく近い期待値の腕を できる限り多く引く. Ø

    最適腕識別: • 期待値最大の腕𝑑∗を高確率で識別することに関心がある. • 最適でない腕を最適としてしまう確率は誤識別率と呼ばれる. 多腕バンディット問題の二つの問題設定 19
  10. 最適腕識別の問題設定 n 誤識別率:最適でない腕を最適としてしまう確率.誤識別率は ℙ N 𝑑5 ∗ ≠ 𝑑∗ として表記される.

    n 固定信頼度の設定: • 達成したいℙ N 𝑑5 ∗ ≠ 𝑑∗ の水準を固定して,サンプルサイズ𝜏を最小化. n 固定予算の設定: • サンプルサイズ(予算)𝜏を固定して, ℙ N 𝑑5 ∗ ≠ 𝑑∗ を最小化. 21
  11. 固定信頼度の最適腕識別 n 固定信頼度の最適腕識別問題 • 総選択数(腕を引ける回数,サンプルサイズ)𝜏を決められる. • 最適でない腕を最適としてしまう確率(信頼度)を𝛿 ∈ (0,1)以下にしたい. •

    誤識別率が𝛿以内になるまで実験を続ける. • プレイヤーの決めた停止ルールのもとで実験が停止する. • サンプルサイズは確率変数(停止時刻)として扱われる. 22
  12. 固定信頼度の最適腕識別の性能評価 n サンプル複雑度 • 信頼度𝛿のもとでの固定信頼度の最適腕識別に対して,複雑度 𝜅8 𝒑 ≔ inf 7-:;8

    <=>?@,!AB lim sup 7→D 𝔼[𝜏7] log 1 𝛿 を用いてサンプル複雑度𝔼[𝜏7]を評価. • Mannor and Tsitsiklis (2004),Kaufmann et al. (2016),Garivier and Kaufmann (2016). 26
  13. サンプル複雑度の下限 n 個人の異質性を考慮しない場合の下限. • 𝒑のクラスをℳとする. • ℳ内の分布𝒑は唯一の最適腕を持つものとする. • 𝒑のもとでの最適腕を𝑑∗(𝒑)とする. n

    ある問題𝒑に対するアルゴリズムに対して,同じアルゴリズムが対処するこ とが難しい問題を𝒒を考えることで下限を導出する. 27
  14. サンプル複雑度の下限 n サンプル複雑度の下限(Garivier and Kaufmann (2016)) • 任意の𝛿- PAC戦略と,バンディットモデル 𝑝%,

    𝑝', … , 𝑝) = 𝒑 ∈ ℳに対し て, liminf 7→D 𝔼E 𝜏7 log(1/𝛿) ≥ c 𝑇∗ 𝒑 log(1/𝛿) . • c 𝑇∗ 𝒑 F% ≔ sup G∈𝒲 inf 𝒒,𝜻 ∈KLM 𝒑 ∑<O% P 𝑤<KL 𝑝< , 𝑞< . • Alt 𝑣 ≔ 𝒒 ∈ ℳ: 𝑑∗ 𝒒 ≠ 𝑑∗ 𝒑 . • 𝒲はサンプル割り当て(𝑤%, 𝑤', … , 𝑤))の集合. 28
  15. Track-and-Stop戦略 n Garivier and Kafmann (2016) • この下限と,下限を達成するアルゴリズムを提案. n Track-and-Stop戦略

    • 最適な腕へのサンプルの配分比率(処置の配分)を推定. • 推定された比率をTrackするように腕を選択. • 逐次的な一般化尤度比検定を行う. • Chernoffの停止ルールと呼ばれるルールにしたがって停止. 29
  16. 最適腕識別において異質性が果たす役割 n 目標は,文脈𝑋! で周辺化した期待報酬が最大の腕𝑑∗を見つけること. 𝑑∗ = arg max " 𝔼

    𝑌! 𝑑 = arg max " 𝔼 𝔼[𝑌! 𝑑 |𝑋] . • この目標は文脈を使わない場合と同じ. • 個人の異質性を考慮することで,達成できる下限をより小さくできる. • より効率的な最適腕識別が可能になることを意味する. 31
  17. 最適腕識別において異質性が果たす役割 n リグレット最小化の設定では文脈についての研究があった. n 最適腕識別の設定では文脈についての研究はなかった. n Kato and Ariu. The

    Role of Contextual Information in Best Arm Identification. • 効率的な期待処置効果推定(Hahn, Hirano, and Karlan (2011),van der Laan (2008),Kato, Ishiraha, Honda, and Narita (2020))の拡張. • (ほぼ)初めての文脈(共変量)を伴う最適腕識別の論文. • 最適腕識別において今まで文脈の役割がよくわかっていなかった. 32
  18. 最適腕識別において異質性が果たす役割 • 文脈𝑥の分布を𝜻とする. • 𝒗 = (𝒑, 𝜻)のクラスをΩとする. • Ω内の分布𝒑は唯一の最適腕を持つものとする.

    • 𝒗のもとでの最適腕を𝑑∗(𝒗)とする. n ある問題𝒗 = (𝒑, 𝜻)に用いるアルゴリズムに対して,同じアルゴリズムが対 処することが難しい問題 𝒒, 𝜻 ∈ Ωを考えることで下限を導出する. 33
  19. 改善されたサンプル複雑度の下限 n サンプル複雑度の下限(Kato and Ariu (2021)) • 文脈(共変量)を使える場合のサンプル複雑度の下限. liminf 7→D

    𝔼E 𝜏7 log(1/𝛿) ≥ 𝑇∗ 𝑣 . • 𝑇∗ 𝒗 F% ≔ sup G∈𝒲 inf 𝒒,𝜻 ∈KLM 𝒗 ∑<O% P ∫ ℝ 𝑤<,SKL 𝑝<,S , 𝑞<,S 𝜁 𝑥 d𝑥 , • Alt 𝒗 ≔ 𝒒, 𝜻 ∈ Ω: 𝑑∗ 𝒒, 𝜻 ≠ 𝑑∗ 𝒗 • 𝒲はサンプル割り当て(𝑤%, 𝑤', … , 𝑤))の集合. 34
  20. 例:2文脈2腕正規バンディットの下限 n 𝑌!(1)と𝑋! , 𝑌!(2)と𝑋! の相関:𝜌%S と𝜌'S . • 𝜌%S

    と𝜌'S をそれぞれ[0, 1]の範囲で動かす. Ø 共変量を無視する場合の下限をℓ, Ø 共変量を考慮する場合の下限をc ℓとする. n 下限の改善率1 − c ℓ/ℓを右図にプロット. • 赤色に近づくほど下限が改善. 36
  21. 文脈付きTrack-and-Stop戦略 n ある期𝑡における最適な割り当て比率の推定量 { 𝑤= { 𝑤%,S, { 𝑤',S, …

    { 𝑤),S S∈{%,…,B} は,ミニミマックス最適化により, ! 𝑤! = arg max "∈𝒲 min %& ' %! ∗ min ∑#$% & ' )#*',#+∑#$% & ' )#*) '! ∗,# + ,+- . 𝜁, 𝑤%,, kl ̂ 𝜇%,, , 𝜆%,, + 𝑤 ' %!,, kl ̂ 𝜇' %! ∗,, , 𝜆' %,, として推定される. • kl 𝜇, 𝜆 は平均𝜇と𝜆のベルヌーイ分布のカルバックライブラー距離. 40
  22. 文脈付きTrack-and-Stop戦略の漸近最適性 n 文脈付きTrack-and-Stop戦略のサンプル複雑度は, limsup 7→D 𝔼E 𝜏7 log(1/𝛿) ≤ 𝑇∗

    𝑣 となる. n これはアルゴリズムの性能が理論的下限と一致することを意味する. 42
  23. 固定予算の最適腕識別の性能評価 n 予算𝑇のもとでの固定予算の最適腕識別に対して複雑度を 𝜅T 𝑣 ≔ inf U?VW,W!6V! <=>?@,!ABW lim

    sup X→Y − 1 𝑇 log 𝑝X 𝑣 F% 定義する. • ここで, 𝑝X 𝑣 ≔ ℙ N 𝑑X ≠ 𝑑∗ (誤識別率). • inf U?VW,W!6V! <=>?@,!ABW は𝑇 → ∞で正しい最適腕を識別するアルゴリズムの集 合に対して定義している. 44
  24. (参考) 方策選択と固定予算の最適腕識別 n Kasy and Sautmann. 2021 “Adaptive Treatment Assignment

    in Experiments for Policy Choice” Econometrica. n 設定は固定予算の最適腕識別と全く同じ. n 最適腕識別が経済学でも評価されつつある一例. 45
  25. • van der Laan, M. J. The construction and analysis

    of adaptive group sequential designs. 2008. • Kaufmann, E., Cappé, O., and Garivier, A. On the complexity of best-arm identification in multi-armed bandit models. JMLR, 2016. 51