Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MLPシリーズ「強化学習」輪読会 #5
Search
shimacos
January 14, 2020
Science
1
440
MLPシリーズ「強化学習」輪読会 #5
MLPシリーズ「強化学習」輪読会 での発表資料です。
5.3 説の「ブラックボックス生成モデル」に対するプランニングについてまとめました。
shimacos
January 14, 2020
Tweet
Share
More Decks by shimacos
See All by shimacos
LayerXにおけるAI・機械学習技術の活用と展望 / layerx-ai-jsai2024
shimacos
2
3.1k
BigQueryで参加するレコメンドコンペ / bq-recommend-competition-kaggle-meetup-tokyo-2023
shimacos
1
1.8k
[関東Kaggler会 スポンサーセッション] LayerXの事業と機械学習でできること / kanto-kaggler-layerx
shimacos
0
1.3k
[CVPR 2023 論文紹介] Unifying Vision, Text, and Layout for Universal Document Processing / kanto-cv-59-udop
shimacos
3
1k
LayerXにおける機械学習を活用したOCR機能の改善に関する取り組み / layerx-jsai-2023
shimacos
3
24k
Kaggle Days Championship予選全12回まとめ + TIPS
shimacos
0
6.4k
Kaggle Feedback Prizeコンペ 反省会
shimacos
5
3.4k
BQMLことはじめ
shimacos
2
1.8k
結局Kaggleって何を得られるの?
shimacos
8
7.4k
Other Decks in Science
See All in Science
How were Quaternion discovered
kinakomoti321
2
1.1k
非同期コミュニケーションの構造 -チャットツールを用いた組織における情報の流れの設計について-
koisono
0
140
科学で迫る勝敗の法則(名城大学公開講座.2024年10月) / The principle of victory discovered by science (Open lecture in Meijo Univ. 2024)
konakalab
0
200
トラブルがあったコンペに学ぶデータ分析
tereka114
2
900
ultraArmをモニター提供してもらった話
miura55
0
190
ベイズ最適化をゼロから
brainpadpr
2
810
Factorized Diffusion: Perceptual Illusions by Noise Decomposition
tomoaki0705
0
220
多次元展開法を用いた 多値バイクラスタリング モデルの提案
kosugitti
0
190
理論計算機科学における 数学の応用: 擬似ランダムネス
nobushimi
1
340
論文紹介: PEFA: Parameter-Free Adapters for Large-scale Embedding-based Retrieval Models (WSDM 2024)
ynakano
0
150
ICRA2024 速報
rpc
3
5.2k
Sociovirology
uni_of_nomi
0
100
Featured
See All Featured
Done Done
chrislema
181
16k
Why Our Code Smells
bkeepers
PRO
334
57k
Facilitating Awesome Meetings
lara
50
6.1k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
47
2.1k
BBQ
matthewcrist
85
9.3k
Building Better People: How to give real-time feedback that sticks.
wjessup
364
19k
Designing for humans not robots
tammielis
250
25k
A designer walks into a library…
pauljervisheath
204
24k
The Pragmatic Product Professional
lauravandoore
31
6.3k
The Cult of Friendly URLs
andyhume
78
6k
A Modern Web Designer's Workflow
chriscoyier
693
190k
How GitHub (no longer) Works
holman
310
140k
Transcript
MLPシリーズ「強化学習」輪読会 #5 「ブラックボックス生成モデル」に対するプランニング 2020/01/14, Naoto Shimakoshi
自己紹介 2 • 名前 • 島越 直⼈ (シマコシ ナオト) •
よくトリゴエと間違えられますがシマコシです。 • Twitter • @nt_4o54 • 経歴 • 機械系出⾝ • 某IT企業でデータサイエンティスト⼀年⽬ • 最近強化学習に興味あり • Kaggle • @shimacos (⾦ 1, ソロ銀 2, ソロ銅3) • Kaggle Master
5章の後半からを扱います 3
5.3 ブラックボックス生成モデルに対するプランニング 4 • ブラックボックス⽣成モデルとは • 任意の状態⾏動対の⼊⼒に対して報酬と次ステップの状態を出⼒するようなモデル ( ) •
シミュレータやドメイン知識、データから設計したものを扱う (確率的なものが多い) • プランニングのアプローチの種類 • 幅優先探索 • 動的計画法 (ref. Chapter 2), スパースサンプリング法 (確率的幅優先探索) • 深さ優先探索 • UCT法 -> モンテカルロ⽊探索
• 状態数に計算量が依存しないため、状態数が⾮常に⼤きいときに有効 • 各親ノードの⾏動に対して からN回サンプリングを⾏うことで⽊を成⻑させる • これを事前に決めたパラメータTだけ深さ⽅向に繰り返す • 後⽅から再帰的に状態価値関数を計算 •
注意点:動的計画法と異なり、⼊⼒された状態の最適⾏動しか求めない 5.3.1 スパースサンプリング法 5 親ノード 孫ノード ⼦ノード
• 元論⽂でスパースサンプリング法で求まる⽅策がε最適であるための条件が⽰されている。 • 条件: がMDP、報酬の上限値が既知 ( ) • 割引率を1に近づけるほどTとNを⼤きくしなければいけない。 •
割引率を1に近づけたい(先のことをなるべく考慮したい)問題設定には不向き 5.3.1 スパースサンプリング法のNとTの設定方法 6
• スパースサンプリング法と異なり、経験的に良さそうな⾏動を優先的に選択 • 深さ優先探索を⾏い、探索を⾏ったノードのみ⽊に追加する • 各ノードが滞在回数 を保持する • 多腕バンディットにおけるUCBI法に基づいた⾏動選択 •
同⼀の値があればランダムに選択 • Tはスパースサンプリング法によって決定することもある • 探索した経験に基づき価値関数を更新 • 常に平均値になるように更新を⾏う 5.3.2 UCT法 7 探索強度を定めるハイパラ ⼤きいほど探索回数が少ないノードを探索 (報酬の⼤きさ、割引率により決定)
• UCT1法 • 通常のUCT法は異なるタイムステップの状態を異なるものとして扱うが、これを同⼀の ものとして扱い、ノード間でmやqを共有する • その他のアプローチ • ⾏動価値関数を関数近似することで汎化性能を⾼める •
TD (λ)法のように にnステップ切断リターンを⽤いることで、推定分散を⼩さくする 5.3.2 UCT法の改良 8
• UCT法の⼀般化 • 意思決定系列のシミュレーションをRollout、Rolloutに⽤いる⽅策を既定⽅策と呼ぶ • 既定⽅策は多くの場合、ランダム⽅策 • UCT法とは異なり、根ノードに近い⼀部のノードのみ保持する • アルファ碁など多くのゲームAIの基礎
• アルゴリズム (http://blog.brainpad.co.jp/entry/2018/04/05/163000が分かりやすい) • ⽊探索:葉ノードに到達するまで状態観測と⾏動選択を繰り返す (UCT法が使われること が多い) • ノード展開:経験回数が閾値を超えた場合、新たに状態ノードとそれに対応する状態⾏動 対の⼦ノードを作成し、初期化 • 葉ノード評価:葉ノード以降について既定⽅策によるロールアウトを実施することで獲得 • ノード更新:葉ノードの評価結果を根ノードまで伝播させ、各ノードの統計量を更新 5.3.3 モンテカルロ木探索 (MCTS) 9