(W)を次のように設定する. ES (W) = N M n∈S En (W) (1.1.1) ミニバッチがランダム(一様分布)に従って取ってくるとき, ES (W)とED (W)の期待値は等しくなる( N M はそのための係数である) . ES (W)の勾配を用いて学習するとき,確率的勾配降下法(stochastic gradient descent method)と呼ぶ. 5 / 35
for t = 1 to T do 2: ˜ W ∼ q(W) 3: Receive context x∗ 4: Choose an action a∗ for maximize Ep(r∗|x∗,a∗, ˜ W) [r∗ ] 5: Receive reward r∗ 6: Add {x∗ , a∗ , r∗ } to data 7: Update q(W) 8: end for 34 / 35