全結合ニューラルネットワーク、3隠れ層、各層100ノード。
2. ハイパーパラメータ設定:
a. ミニバッチサイズ: 32
b. リプレイメモリサイズ: 100,000
3. λ調整率:
a. 候補: -8%、-3%、-1%、0%、1%、3%、8%
4. ε -greedyポリシー:
a. 初期値: 0.9
b. 最終値: 0.05
c. 減衰式: ε = max(0.95 - r_ε* t, 0.05)
d. 適応型ポリシー:
i. アクション値分布が単峰型でない場合: \epsilon = \max(\epsilon, 0.5)
5. 学習設定:
a. ターゲットネットワークの更新: C = 100 ステップごとにθを更新
b. 学習率: 0.001
c. モーメント: 0.95
22