s s Expertと違うアクションを取る確率はεよりも小さいとする. (ある程度きちんと学習されたとする) ただし,この制約が守られるのは(εよりも小さい)のは, トレーニングデータセット状態にあるsだとしましょう. (Dとするよりもトレーニングのデータの分布とした方が一般 的なので赤線が入っています.画像を扱うなら同じ状態は 基本的には見ないので.) 模倣学習の設定なので,コストは左の図. expertと一緒なら0,違うなら1 Daggerを使うともちろん学習した方策で訪れる状態の分布が,ト レーニングのデータセットの状態の分布と等しくなるので,εTという 値でバウンドできる.分布が同じということは,どの状態においても expertと違う行動をとるのはε!(当たり前) なお,これが最大に良い場合.