Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
IP70_counterfactual_machine_learning
Search
SatokiMasuda
November 18, 2024
Research
0
3
IP70_counterfactual_machine_learning
第70回土木計画学研究発表会・秋大会の発表資料です。「反実仮想機械学習を用いた行動変容のための情報提供方策の最適化」
SatokiMasuda
November 18, 2024
Tweet
Share
More Decks by SatokiMasuda
See All by SatokiMasuda
ip68_LocationGame
stkmsd
0
3
ip67_MFDRL_evacuation
stkmsd
0
6
IP66_EvacuationLearning
stkmsd
0
3
CPIJ2024_DisasterLocationGame
stkmsd
0
5
jasdis-HospitalEvacuation
stkmsd
0
5
TRC30-CombinatorialReconfiguration
stkmsd
0
6
hksts2023_AlphaZeroLocationGame
stkmsd
0
3
WCTR2023_EvacuationLearningModel
stkmsd
0
6
IATBR2022_FatalitiesResponseModel
stkmsd
0
5
Other Decks in Research
See All in Research
Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views
satai
1
100
テキストマイニングことはじめー基本的な考え方からメディアディスコース研究への応用まで
langstat
1
120
データサイエンティストをめぐる環境の違い 2024年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
580
機械学習でヒトの行動を変える
hiromu1996
1
300
Introducing Research Units of Matsuo-Iwasawa Laboratory
matsuolab
0
920
Practical The One Person Framework
asonas
1
1.6k
Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences
sgk
1
320
20241115都市交通決起集会 趣旨説明・熊本事例紹介
trafficbrain
0
220
Tietovuoto Social Design Agency (SDA) -trollitehtaasta
hponka
0
2.5k
12
0325
0
190
Human-Informed Machine Learning Models and Interactions
hiromu1996
2
470
研究の進め方 ランダムネスとの付き合い方について
joisino
PRO
55
19k
Featured
See All Featured
Statistics for Hackers
jakevdp
796
220k
RailsConf 2023
tenderlove
29
900
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.5k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
120
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
4
370
A Tale of Four Properties
chriscoyier
156
23k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
How GitHub (no longer) Works
holman
310
140k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Transcript
反実仮想機械学習を⽤いた ⾏動変容のための情報提供⽅策の最適化 東京⼤学⼤学院博⼠2年 増⽥ 慧樹 ⽻藤 英⼆ 2024年11⽉16⽇ (⼟) 第70回⼟⽊計画学研究発表会・秋⼤会@岡⼭⼤学
⾏動モデルによる⾏動予測 • 特徴量𝑥! をもとに⾏動𝑦! を精度 よく予測する関数𝑓を推定する 2 研究の背景 – データにもとづく政策介⼊効果予測の課題
𝒟 = 𝑥!, 𝑦! !"# $ 予測関数𝑓を学習 データ 𝑦 ≈ 𝑓 𝑥 𝑎 = 𝜋 𝑥 最適な意思決定 最良の予測 max %, ( 𝑧 𝑦 s. t. 𝑦 = 𝑓(𝑥) 年齢、居住地等の個⼈属性 (𝑥!)と、 ハザードマップ・避難訓練などの介⼊ (𝑥!)を⾏なった場合の、避難有無(𝑦!)を 予測する⾏動モデル𝑓を推定 介⼊ (災害情報の提供)による⾏動変容 を予測して、各個⼈の避難確率を最⼤ にする介⼊⽅策を決定 予測に基づく 政策の最適化 ⽅策𝜋にもとづく⾏動𝑎 例) 避難⾏動を変容させるための災害情報の提供
⾏動モデルによる⾏動予測 • 特徴量𝑥! をもとに⾏動𝑦! を精度 よく予測する関数𝑓を推定する 3 研究の背景 – データにもとづく政策介⼊効果予測の課題
⾏動履歴を⽤いた意思決定の最適設計 • 特徴量𝑥! 、介⼊𝑎! 、⾏動𝑦! の履歴が 得られたとき、期待報酬を最⼤化す る⽅策𝜋を求める 𝒟 = 𝑥!, 𝑦! !"# $ 𝒟 = 𝑥!, 𝑎!, 𝑦! !"# $ 予測関数𝑓を学習 ⽅策関数𝜋を直接学習 データ データ 𝑦 ≈ 𝑓 𝑥 𝑎 = 𝜋 𝑥 最適な意思決定 最良の予測 max ), ( 𝑧 𝑦 s. t. 𝑦 = 𝑓(𝑥) 予測に基づく 政策の最適化 反実仮想機械学習、オフ⽅策評価・学習
1. ⾏動モデルの予測精度と、それに基づく意思決定の最適性の関係に ついて、明らかにする。 • 最良の予測モデルは最適な意思決定を導くのか? 2. 過去の実験データをもとに、最適な⾏動を促す情報提供⽅策を求める。 • 新たな情報提供⽅策の評価⽅法として、⾏動モデルを⽤いる⽅法と 因果推論⼿法に基づく⽅法の特徴を、解析的・数値的に確認
4 研究の⽬的 真のモデル 𝑥! : 特徴量, 𝑎! : 介⼊, 𝑦! : ⾏動 𝒟 = 𝑥!, 𝑎!, 𝑦! !"# $ データ ⽣成 最適化 最適化 意思決定の最適性 真の最適⽅策 𝑎 = argmax%"∈+ . 𝑞(𝑥, 𝑎,) 推定された最適⽅策 . 𝑎 = argmax%"∈+ . 𝑞(𝑥, 𝑎,) ⾏動モデル 未知の領域 モデルの予測精度 推定 期待報酬の 予測値
予測精度と意思決定の最適性は必ずしも⼀致しない 例 Edge 1 ◦とEdge 2 ◻のコストを予測し、予測値をもとにコストの ⼩さい経路 (最短経路)を選択する問題 Elmachtoub
and Grigas (2022) 5 既往研究 – 予測精度と意思決定の最適性 モデル1: 予測精度は⾼いが 意思決定が最適でない モデル2: 予測精度は低いが 意思決定が最適 コストの⼤⼩が切り替わる 境界を正確に特定 経路コスト (効⽤) 経路コスト (効⽤) 特徴量 特徴量
1. 最適な意思決定からの誤差を予測モデルの損失関数に組み込むアプローチ • Smart “Predict, then Optimize” Elmachtoub and Grigas
(2022) 6 既往研究 – 最適な意思決定を⾏うための⼿法 𝑙"#$ ̂ 𝑐, 𝑐 = 𝑐%𝑤 ̂ 𝑐 − 𝑧∗ 𝑐 𝑐: 真のパラメタ, ̂ 𝑐: 推定パラメタ 推定パラメタの 下での最適解 真のパラメタの下での ⽬的関数値 = 推定パラメタ ̂ 𝑐による意思決定が、真のパラメタcのもとでどれだけ良いか 介⼊あり 介⼊なし 介⼊したときの報酬 観測 未観測 介⼊しないときの報酬 未観測 観測 介⼊による効果 →推定 → ⾮線形な⽬的関数への拡張が困難 2. 因果推論アプローチ • 特徴量𝑥! 、介⼊𝑎! 、報酬𝑟! の履歴データ𝒟 = 𝑥! , 𝑎! , 𝑟! !'( ) が得られたとき、 介⼊による因果効果を推定→ × 新しい⽅策の評価、最適⽅策の学習
特徴量𝑥! , ⽅策𝜋* に基づく介⼊𝑎! ~𝜋* 𝑥! , ⾏動による報酬𝑟! に関する履歴データ があるとき、別の新しい⽅策𝝅の効果を推定したり、より良い⽅策𝝅を学習する
7 本研究のアプローチ – オフ⽅策評価・学習 介⼊前 介⼊後 避難 避難 𝑎+ 避難 ⾮避難 𝑎( ⾮避難 避難 𝑎+ ⾮避難 ⾮避難 𝑎, 𝑎# : 避難訓練A 𝑎$ : 災害情報A 𝑎% : 避難訓練B 𝑎& : 災害情報B 属性𝑥! 属性𝑥! 属性𝑥! 属性𝑥! ⽅策𝜋9 履歴データ 𝒟 = 𝑥!, 𝑎!~𝜋-(𝑥!), 𝑟! !"# $ 新しい⽅策𝝅の評価 最適な⽅策𝝅の学習 既存の⽅策𝜋- に基づいて、 報酬𝑟! 報酬𝑟! 報酬𝑟! 報酬𝑟!
• 新しい⽅策𝜋の性能𝑉(𝜋) 8 新⽅策𝝅の性能評価 報酬 特徴量𝑥と⾏動𝑎で条件 付けた報酬の期待値 この同時分布は未知 → データから𝑽(𝝅)を推定
→ 過去の履歴データに少量しか存在しない、または存在しない特徴量𝑥と 介⼊𝑎の組み合わせに対して、期待報酬をいかにうまく推定するかが課題 (因果推論の根本問題) 1. 予測モデルを⽤いる⽅法 (Direct Method推定量) 2. ⾏動の重み付けを⽤いる⽅法 (Inverse Propensity Score推定量) 3. 1と2を組み合わせる⽅法 (Doubly Robust推定量)
9 新⽅策𝝅の性能評価 – Direct Method推定量 • 真の性能𝑉(𝜋)に対する推定量; 𝑉(𝜋)の平均⼆乗誤差は、バイアス (𝑉(𝜋)と ;
𝑉(𝜋)の差)とバリアンス (; 𝑉(𝜋)のばらつき)に分解できる 期待報酬関数𝒒(𝒙, 𝒂)の推定モデル → 特徴量𝑥, 𝑎を⼊⼒とし、⾏動𝑦 (=報酬𝑟) を予測する⾏動モデル = 期待報酬の経験平均 ①推定モデルと真の 期待報酬関数のズレ ③予測値のバラつき ②データ数 誤差に影響する要因: ⾏動モデルの予測精度が悪い場合や、予測値のばらつきが⼤きい場合は、 新⽅策𝝅の性能を正しく評価できない
• 履歴データに少ないが新⽅策でよく選択される⾏動→ 重み⼤ • 履歴データに多いが、新⽅策であまり選択されない⾏動→ 重み⼩ • バイアスとバリアンス • Bias
= 0 → 𝑉(𝜋)に対する不偏推定量 • Variance 10 新⽅策𝝅の性能評価 – Inverse Propensity Score推定量 既存⽅策𝝅𝟎 と新⽅策𝝅についての 介⼊𝒂𝒊 の選択確率の⽐ ※ 共通サポートの仮定のもとで成⽴ 全ての𝑥, 𝑎について、𝜋 𝑎 𝑥 > 0 ⇒ 𝜋# 𝑎 𝑥 > 0 既存⽅策と新⽅策の⾏動選択確率の差が⼤きい場合 (𝒘⼤)、 バリアンスが拡⼤してしまうおそれ
11 新⽅策𝝅の性能評価 – Doubly Robust推定量 • バイアスとバリアンス • Bias =
0 → 𝑉(𝜋)に対する不偏推定量 • Variance = DM推定量とIPS推定量の組み合わせ IPS推定量の不偏性を継承しながら、バリアンスを低く抑えることが可能 DM推定量 IPS推定量と同様 に、 報酬を𝑤で重みづけ IPS推定量との違い −4 𝑞(𝑥, 𝑎)だけバリアンス低減
最良の予測モデルは最適な意思決定を導くのか? 12 数値実験1 真のモデル Masuda & Ikegai (2024) 避難有無・時間・場所の選択を Discounted
RLモデルで表現 𝑥! : ⾃宅浸⽔深、元の避難意向 𝑎! : 避難訓練、ハザードマップ 𝑦! : 避難の有無 𝒟 = 𝑥!, 𝑎!, 𝑦! !"# $ データ⽣成 学習 14種の⾏動モデル MNL(2次の交互作⽤あり/なし), ランダムフォレスト (深さ5, 10), サポートベクタマシン (線形, ガウス), k近傍法 (近傍3, 5), ニューラルネットワーク (1層、2層), LightGBM (深さ上限なし、上限10), 決定⽊ (深さ5, 10) 推定された最適⽅策 𝑎 = argmax%"∈+ . 𝑞(𝑥, 𝑎,) ⽅策学習 ⽅策学習 真の最適⽅策 𝑎 = argmax%"∈+ . 𝑞(𝑥, 𝑎,) 意思決定の最適性を確認 各個⼈への情報提供3種類 予測精度を確認 1000データ
• モデルの予測精度 (テストデータに対する正解率)は、決定⽊系のモデルで ⾼く (>80%)、シンプルなモデルでは60〜70%程度 13 数値実験1 - モデルの予測精度 (正解率)
モデル 予測精度
• 予測精度のランキングで⾊分け (⻩⾊に近いほど予測精度が⾼い) → MNL(交互作⽤)、NNなど予測精度の低いモデルで、意思決定が最適に近い → 予測精度と予測モデルによる意思決定の最適性は必ずしも⼀致しない 14 数値実験1 -意思決定の最適性
(真のモデルによる⽅策との差) 意思決定の精度 (最適な意思決定との⼀致度) モデル
3つの推定量 (DM, IPS, DR推定量)は、新たな⽅策 (意思決定)の 性能を正確に推定できるか 15 数値実験2 真のモデル Masuda
& Ikegai (2024) 避難有無・時間・場所の選択を Discounted RLモデルで表現 𝑥! : ⾃宅浸⽔深、元の避難意向 𝑎! : 避難訓練、ハザードマップ 𝑦! : 避難の有無 𝒟 = 𝑥!, 𝑎!, 𝑦! !"# $ データ⽣成 性能推定 MNL 推定された性能 真の性能計算 ⽅策性能の 推定精度を確認 真の性能 𝑉(𝜋) 7 𝑉'((𝜋) 7 𝑉)*+ (𝜋) 7 𝑉', (𝜋) MNL 新⽅策: 避難意向あり 避難意向なし 浸⽔域 避難訓練 ハザードマップ ⾮浸⽔域 何もしない 何もしない 500データ
• IPS推定量を正規化したSNIPS推定量を使⽤ • 推定誤差は、SNIPS < DR < DMの順に⼩さい • SNIPS,
DR推定量は、データが増えるほど、バリアンスが低下 16 数値実験2 – ⽅策性能の推定誤差 真の期待報酬との平均⼆乗誤差 バイアス バリアンス データ数
◼ 本研究のまとめ • オフ⽅策評価・学習の⼿法を援⽤し、過去の介⼊の履歴データから、新たな ⽅策の性能を評価・学習する枠組みを整理 • 最良のモデルは、最適な意思決定と結びつかない可能性がある → 適切な推定量を⽤いて、⽅策の評価・学習を直接⾏うアプローチの可能性 ◼
今後の課題 • 予測精度と意思決定の最適性についての、さらなる分析 • 予測モデルの複雑さ?⾏動の複雑さ?予測値の分散? • ⽅策の⻑期性能の評価 → 介⼊効果の忘却や強化の評価 • ⾏動の種類や数が増加した場合の、最適⽅策の学習 → 介⼊の有無だけでなく、介⼊内容の詳細をデザインする⼿法の開発 例) 情報提供の⽂⾔、⽂書レイアウト、避難訓練の⾏程など 17 結論
真のモデルから500回サンプリング→予測モデルの学習→⽅策最適化を20回反復 →複雑な決定⽊系のモデルでモデルの予測精度が⾼い傾向 19 数値実験1 – 異なるデータセットでの検証
真のモデルから500回サンプリング→予測モデルの学習→⽅策最適化を20回反復 → 交互作⽤項ありのMNL, ニューラルネットワーク, 浅い決定⽊が最適に近い傾向 20 数値実験1 – 異なるデータセットでの検証