Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Reinforcement Learning: An Introduction second ...

Avatar for S. Ota S. Ota
January 23, 2019

Reinforcement Learning: An Introduction second edition, Chapter 1 Introduction

Reinforcement Learning: An Introduction second edition
Chapter 1 Introduction

Sutton輪読会
太⽥ 晋
2020-09-25

Avatar for S. Ota

S. Ota

January 23, 2019
Tweet

More Decks by S. Ota

Other Decks in Research

Transcript

  1.  • : 3 2 7 : • .47:5 24

    4: -41 :7:6 • A1 4 • 4 4: 5 .47:5 24 4: -41 :7:6 • -7 7 1 7 : 1:3 2 4 • : A 4:343 A1 4 72 12 4 • 1 • 1 7 5 .47:5 24 4: -41 :7:6
  2.  • : 3 2 7 : • .47:5 24

    4: -41 :7:6 • A1 4 • 4 4: 5 .47:5 24 4: -41 :7:6 • -7 7 1 7 : 1:3 2 4 • : A 4:343 A1 4 72 12 4 • 1 • 1 7 5 .47:5 24 4: -41 :7:6
  3. 1 . • d - 4 (4-1 • p d

    • h A A • d ui • d u r I I • e I (1 54 4-1 1 ( • tm a I • n I l • o I l • d gc 1 )- (4 ) -
  4.  • : 3 2 7 : • .47:5 24

    4: -41 :7:6 • A1 4 • 4 4: 5 .47:5 24 4: -41 :7:6 • -7 7 1 7 : 1:3 2 4 • : A 4:343 A1 4 72 12 4 • 1 • 1 7 5 .47:5 24 4: -41 :7:6
  5. 1 . • • b • n e • i

    • 2 - ( )22 2 3) 2 • h n ()- )( 2) 2( • d o m ar i • cp • f 12 -) • o 3 - ) ( • l )-( • f o m ar m s
  6. 1 . 1 • e k 3) ,1 • Pal

    m ( 3 , 32 3 , , lc • ,2 ( 32 • bo • M • edr 1, 3 • h k Dn dr • lc k e p i bo
  7. . 1 • en ao • 3 ao ) (

    ) • en ao ao i • z t r • en ao • 3 x g • p l x g • ao ao
  8. . 1 • ( ) ( • • l n

    ( • ( ) • r • ? • e a t • p o • x i - x i
  9. . . 1 • k ( ) • • m

    no r • r w A • k ) • • to ks dr • k • e • w ga rI • m no rI h
  10.  • : 3 2 7 : • .47:5 24

    4: -41 :7:6 • A1 4 • 4 4: 5 .47:5 24 4: -41 :7:6 • -7 7 1 7 : 1:3 2 4 • : A 4:343 A1 4 72 12 4 • 1 • 1 7 5 .47:5 24 4: -41 :7:6
  11. . 1 • • n • l di • e

    c • r • ha • b di • e di • • v (-( ) ( • ot
  12. 2 . 1 • ae • sy c ae o

    • l ae f d • l h ) ( • ( )) ) • l f • • • gi n • p r • ae t
  13.  • : 3 2 7 : • .47:5 24

    4: -41 :7:6 • A1 4 • 4 4: 5 .47:5 24 4: -41 :7:6 • -7 7 1 7 : 1:3 2 4 • : A 4:343 A1 4 72 12 4 • 1 • 1 7 5 .47:5 24 4: -41 :7:6
  14. . 1 . . . . 4 34 • (

    • ( • ( • ) (
  15. 1 . . 1 3 • o ( • c

    ) l • • p • a e- - • n - • o i
  16. 1 . . 1 3 • ( ( ) •

    • a • l d d • i g n • e d
  17. 1 . . 1 3 • ) ( • )

    - d • a ( ( d • c •
  18. 1 . . 1 3 • c y i )(

    • 6 y 6 • y • 6 6 a o y • y e a • y 0 n e • r m s d y • yp o m
  19. 1 . . 1 3 • ac • ac -(

    - • r r • o • sm f b e • t ) • o d t • • t ( ) • ni - t • h d ni 8 l
  20.  • : 3 2 7 : • .47:5 24

    4: -41 :7:6 • A1 4 • 4 4: 5 .47:5 24 4: -41 :7:6 • -7 7 1 7 : 1:3 2 4 • : A 4:343 A1 4 72 12 4 • 1 • 1 7 5 .47:5 24 4: -41 :7:6
  21. . . 4 1 • n . ( ) D

    7 • i a • • l D M t • . ( ) . ( 3 P D M • s . ( ) . ( g 1 1 nDa • M • • e Da D
  22. . . 1 4 • u v • v u

    • m l i n ae f l v • u • i • t ( ) u • u • d • u • u • u • u • l
  23.  • : 3 2 7 : • .47:5 24

    4: -41 :7:6 • A1 4 • 4 4: 5 .47:5 24 4: -41 :7:6 • -7 7 1 7 : 1:3 2 4 • : A 4:343 A1 4 72 12 4 • 1 • 1 7 5 .47:5 24 4: -41 :7:6
  24. . 1 . - : A 5 • m •

    a • • • • n • • • i x • x •
  25. . 1 . - : 5 • 1 5 •

    V(St ) • 3 X • 0 5 • O 0 5 • • 0 5 • . O X 1 5 • . O X 1 5 • X 0 5
  26. . 1 . - : 5 • x g ()

    r • r t • r t g p • t r g p • d g g a g p • eo g • yo g • g • g a g * ) ) () • o mv t l i
  27. . 1 . - 5 • T it • Dm

    • rd p it c f no • V(St ) ← V(St ) + α [ V(St+1 ) – V(St ) ] • St rd it • St+1 rd it • α m l( ) e • ed • a ) ( 2 • V(St+1 ) – V(St )
  28. . 1 . - 5 • i d 8 •

    e o d • 8 • 8 • • i d • • 8 • l 7 • p • k g l • r 34.24 125 , , n 9 ( w • • 9 )w
  29.  • : 3 2 7 : • .47:5 24

    4: -41 :7:6 • A1 4 • 4 4: 5 .47:5 24 4: -41 :7:6 • -7 7 1 7 : 1:3 2 4 • : A 4:343 A1 4 72 12 4 • 1 • 1 7 5 .47:5 24 4: -41 :7:6
  30.  • : 3 2 7 : • .47:5 24

    4: -41 :7:6 • A1 4 • 4 4: 5 .47:5 24 4: -41 :7:6 • -7 7 1 7 : 1:3 2 4 • : A 4:343 A1 4 72 12 4 • 1 • 1 7 5 .47:5 24 4: -41 :7:6
  31. 1 3 1 1 . 3 1 7 • -

    - 1 1- 3 • • )- 2 (221 1 2 1 l fi b puEi ML - , 1 - 1 - aEt cwht • - • egkt • 1 1 - D 1 - 1 • r s - 3 - 3 s b s b ,- - 1 - 1 , v 1 1- 3 nuEv o myE • 1 - 221 1 1 1 • OC L • 1 - 1 2 1 • d PC
  32. 1 3 1 1 . 3 1 7 • •

    T 3Q • • 3 Q • - Q 3 -Q • • D A C 3