Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Reinforcement Learning: An Introduction 輪読会 第3回
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
kiyo
June 29, 2021
620
0
Share
Reinforcement Learning: An Introduction 輪読会 第3回
強化学習若手の会で行っているReinforcement Learning: An Introduction 輪読会の第3回発表資料です。
kiyo
June 29, 2021
More Decks by kiyo
See All by kiyo
Agent Skill Acquisition for Large Language Models via CycleQD
kiyohiro8
0
34
Active Retrieval Augmented Generation
kiyohiro8
3
920
Reinforcement Learning: An Introduction 輪読会 第5回
kiyohiro8
0
460
TransGAN: Two Transformers Can Make One Strong GAN
kiyohiro8
0
370
CycleGAN and InstaGAN
kiyohiro8
0
1.5k
Bridging_by_Word__Image-Grounded_Vocabulary_Construction_for_Visual_Captioning.pdf
kiyohiro8
0
1k
Attention on Attention for Image Captioning
kiyohiro8
1
540
Progressive Growing of GANs for Improved Quality, Stability, and Variation
kiyohiro8
1
180
Graph-Based Global Reasoning Networks
kiyohiro8
0
1.4k
Featured
See All Featured
Color Theory Basics | Prateek | Gurzu
gurzu
0
310
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
170
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
920
The Mindset for Success: Future Career Progression
greggifford
PRO
0
330
Heart Work Chapter 1 - Part 1
lfama
PRO
6
35k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Practical Orchestrator
shlominoach
191
11k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.2k
Transcript
Reinforcement Learning 3章 2021年6月3日 kiyo
自己紹介 twitter : kiyo@hrs1985 https://qiita.com/hrs1985 https://github.com/kiyohiro8 株式会社カブクで機械学習エンジニアをしています。 • 深層生成モデル、画像の変換 •
ゲームの強化学習 • ポケモンとか風来のシレンとか に興味があります。 強化学習の勉強をちゃんとやりたいと思ったので若手の会チャンネルに参加しました。
3章の内容 Marcov Decision Process (有限マルコフ決定過程, MDP) の説明 ・エージェントと環境の相互作用 ・エージェントの目的と報酬 ・方策関数と価値関数
・最適方策関数と最適価値関数 pdfはこちらから Reinforcement Learning: An Introduction (http://incompleteideas.net/book/the-book.html)
多腕バンディット問題との違い 多腕バンディット問題では良い選択肢を見つけたら同じ選択肢を選び続ければよい 多腕バンディット問題については 第2回の資料参照 同じスロットを連打! 別のスロットを選ぶ
多腕バンディット問題との違い ずっと同じ池で釣る! 同じ池でばかり釣っていると魚がいなくなって釣れなくなってしまうかも? →状態に合わせて行動を決める必要がある
エージェントと環境 (3.1) 1. エージェント (Agent) は現在の状態 St に応じて行動 At を決める
2. 環境 (Environment) はエージェントの行動 At を受け取って状態を St+1 に遷移させる 3. 遷移後の状態 St+1 と報酬 Rt+1をエージェントに与える 4. 1~3を繰り返す
“Finite” Marcov Decision Process St、At、Rtの全体集合がそれぞれ有限集合 →Finite
Marcov Decision Process (MDP) 状態、行動、報酬を時系列順に並べると以下のような系列が得られる。 ただし 現在の状態Stと報酬Rtは1ステップ手前の状態 St-1とAt-1にのみ依存している(マルコフ性)
エージェントと環境の境界 Q.エージェントと環境の境界はどこに設定するべきか? A.問題に合わせて好きに決めていいよ 身体と外界などの物理的な境界とは必ずしも一致する必要はないよ エージェントの範囲はエージェントが知っている範囲ではなく絶対的にコントロールできるところまでが エージェント
例3-1: バイオリアクター 温度、原料濃度など 目的の物質濃度 撹拌速度など
例3-3: リサイクルロボット
エージェントの学習目的と報酬 (3.2) エージェントの目的は報酬を最大化すること。 報酬を基準にして学習を行わせることが強化学習の特徴。 報酬を正しく設定することが学習の肝。 例えば、チェスでは相手に勝利することに報酬を与えるべきであって相手の駒を取るこ とに報酬を与えてしまうと勝敗を無視して駒を取り始めてしまう。
Returns and Episodes (3.3) Return Gt をt以降の報酬の総和とする。 ただし、Tは状態が終端状態になったときのステップ数 終端状態に至るまでのひとまとまりの系列をエピソードと呼ぶ。 Return
= リターン
割引 (discounting) Return を計算する際に将来の報酬を安く見積もるようにする Gtを再帰的に表現できる(重要) 0 < γ < 1
で取るとGtが発散しない
Episodic TaskとContinuing Taskの統合 (3.4) Episodic Taskにおける終端状態では報酬を0とすることで T=∞として扱える(Continuing Taskのように扱える)
方策関数と価値関数 (3.5) 方策π:状態 s で行動 a を取る確率分布。状態に応じて行動を決める。
価値関数 各状態 s についてその後の割引報酬和を取ったものの期待値 報酬系列がどうなるかは方策に依存するので、 πに関する期待値として取る 状態価値 状態と行動の組み合わせについても状態価値と同様に価値を定義できる。 行動価値
ベルマン方程式 Gtの再帰的な定義から状態価値は以下のように変形できる
最適価値関数 (3.6) 全ての状態および状態-行動の組について 価値関数が最大になるような方策についての価値関数
ベルマン最適方程式 最適状態価値関数と最適行動価値関数についてもeq 3.14と同様の変形ができる。 finite MDPにおいてはベルマン最適方程式は唯一の解を持つ(らしい) 一旦最適状態価値が求まったら最適方策は容易に求まるとのこと
例3-6: Golf 行動としてドライバーかパターを選択できる。 1打ごとに報酬-1、カップインで報酬0 上図:常にパターを使う方策での状態価値 下図:ドライバーを使う場合の最適行動価値 グリーン上以外ではドライバーを使い、グリーン上ではパ ターを使うと良い
例3-5: Grid World どういう環境なのかよくわからない… 補足:A(B)のマスを踏むとA’(B’)に移動しつつ+10(+5)の報酬が得られる、という環境の ようです。
例3-9: リサイクルロボットのベルマン最適方程式 0 < α, β, γ < 1 でv*(h)とv*(l)の解は唯一に定まる。
None