効率的かつ安定した学習が可能で、オンポリシーな強化学習アルゴリズム ではデファクトスタンダード的な存在 ※論⽂(https://arxiv.org/abs/1707.06347) ※git (https://github.com/kakky-hacker/reinforcex) ※参考資料 →https://jp.mathworks.com/content/dam/mathworks/ebook/gated/jp-reinfor cement-learning-ebook-all-chapters.pdf