AcademiX が開催した 第28回 論文輪読会 資料
日時:2023/11/12
論文タイトル:Mastering Diverse Domains through World Models
<概要>
固定されたハイパーパラメータを使用しながら、幅広いドメインで学習する、一般的でスケーラブルな強化学習アルゴリズムDreamerV3を提案。
様々なテクニック(KLバランシング+free bits, Symlog予測、)を用いることで、異なるドメインにまたがって学習できるようになった
人間のデータやカリキュラムを用いたずに、ゼロからマインクラフトのダイヤモンドを収集する最初のアルゴリズム