Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文サーベイ] Survey on Pokemon AI 2

Avatar for tt1717 tt1717
May 22, 2025

[論文サーベイ] Survey on Pokemon AI 2

[論文サーベイ] Survey on Pokemon AI 2
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
1.Pokemon Red via Reinforcement Learning,
Marco Pleines et al. (TU Dortmund University et al.)
[CoG'25] (Cited by: - )
2.Human-Level Competitive Pokémon via Scalable Offline Reinforcement Learning with Transformers,
Jake Grigsby et al. (The University of Texas at Austin.)
RLC'25 [OpenReview] (Cited by: - )

Avatar for tt1717

tt1717

May 22, 2025
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. Survey on Pokemon AI 2 タイトル 学会 著者/所属 引用数 Pokemon

    Red via Reinforcement Learning [CoG'25] Marco Pleines et al. (TU Dortmund University et al.) - Human-Level Competitive Pokémon via Scalable Offline Reinforcement Learning with Transformers RLC'25 [OpenReview] Jake Grigsby et al. (The University of Texas at Austin.) - 2025/05/21 1/17
  2. 3/17 Pokemon Red Environment ゲーム目標: - ゲームクリアではなく,第2ジムがあるハナダシティまでのタスク完了 - ゼニガメを選択した状態からスタート (最初のポケモンは固定)

    - 前半のタスクは野生ポケモンとのバトルがメインとなる - 後半のタスクではオープンワールドに近い構造に移行する ゲーム性: - ターン制バトル,戦略的なパーティ構成,広大なグリッド上の世界を探索 - トレーナーバトル,フィールドのパズル,地形の障害物がある
  3. 4/17 Pokemon Red Environment ポケモンバトル: - 各ターンでプレイヤーが選択できる行動 - 技を選ぶ -

    他のポケモンに交代 - アイテムを使用 - 逃げる (トレーナーバトルの時は不可能) - ポケモンのHPが0になると「ひんし」となり,バトルで使用不可 - ポケモンセンターで回復可能
  4. 5/17 観測空間:「視覚入力」と「ゲーム状態ベクトル」の2種類を観測情報とする 視覚入力: ゲームボーイ画面を前処理した「72×80」グレースケール画像 1.「現在フレーム + 過去2フレーム =3フレーム」をスタックして使用 2.プレイヤーを中心とした「48×48」の二値画像も別途使用 ゲーム状態ベクトル

    3.各ポケモンのHP, レベル - ゲーム内イベントの達成状況を示すフラグ - プレイヤーが得られる情報を模倣するため,制限されている - ポケモンの種族,ステータスの詳細,技構成などは提供されない Observation Space Created by ChatGPT
  5. 行動空間 - 離散的であり,「A, B, Start, 上, 下, 左, 右」の7つ -

    A:決定,会話,調査などに使用 - B:キャンセル,メニュー閉じなどに使用 - Start:メニュー画面を開く - 最初8フレームで押した後,16フレーム休止 -> 24フレームで1回の行動 - 1回の行動を確実に実行するため 終了条件 - 時間制限だけ - 最初に10,240ステップのクレジットを所持して開始 - 各イベントを達成するごとに2,048ステップが追加 - e.g.,) トレーナーバトル,特定のNPCとの会話,ストーリー進行 6/17 Action Space & Terminal Conditions
  6. 報酬関数: - 密な補助報酬を導入 - イベント報酬:ストーリー進行上の目標を完了 - Revent=+2 - 移動報酬:エピソード中に初めて訪れた座標1つごと -

    Rnav=+0.005 - 回復報酬: - 2.5×(ポケモン6体の回復割合の合計) - ポケモンのレベルアップによるHP回復 - レベル報酬: - ポケモン6体のレベル合計に基づく報酬 - 22:「カスミ」との戦いに妥当なレベル - 総報酬の計算:上記の各構成要素の和 - R= Revent + Rnav + Rheal + Rlvl 7/17 Reward Function
  7. アーキテクチャ: - 観測情報の処理 - 「3フレームスタック」と「二値画像」はCNNで処理 - 「ゲーム状態ベクトル」は1層の全結合層で処理 - これらの出力をフラット化 (flatten)

    し,連結させる (concatenate) - 強化学習アルゴリズムは,PPOを使用 - Policy:離散的な行動を出力 - Value:状態価値を出力 8/17 Training Method
  8. 9/17 Results 実験条件 - 初期ポケモンの違い (ゼニガメ,フシギダネ,ヒトカゲ) - メモリ付きエージェント (GRU):再帰型NNを追加 -

    高速設定 (Fast):テキスト速度高速化,バトルアニメ無効 マイルストーン - タケシを倒してからおつきみやまに到達する (Mt. Moon) - ハナダシティに到達する (Cerulean) - カスミを倒す (Misty) - 「マサキのクエスト」と順不同で完了してもOK - マサキのクエスト (Bill's Quest) - このクエストの達成のみがクチバシティへと進める - クチバシティに到達 (Vermilion)
  9. 10/17 - フシギダネの場合,「ハナダシティに到達」以降を完了できない - 回復報酬の悪用に起因 - ヒトカゲの場合,「カスミを倒す」の完了率が2% - カスミがみずタイプの使い手であり,ほのおタイプが不利になるため -

    GRUの場合,「マサキのクエスト」において完了率が48% - 記憶を保持するタスク (マサキのクエスト) において,GRUが有効 Results 5回の試行に対するマイルストーンの平均完了曲線
  10. 11/17 Pokemon Redは強化学習に有用な環境であるが,限界も存在する - クローズドソースであり,訓練に用いるには,合法的なコピーが必要 - 1エピソードが非常に長く,評価に膨大な時間がかかる - 訓練と評価での実行時間が約36時間 -

    2048ステップの観測系列を処理するため,GPUの使用量が大きい - CPUのみの場合,1回の訓練に平均24日かかる - ゲーム内での観測情報が膨大なため,エージェントの評価が大変 - 「アイテムと技の分析」は対象外としている - 数千回のエピソードを全て人手で確認するのは不可能 これらの限界に対処するには,Pokemon Redに特化したツールセットが必要 ->おそらく,全てのエピソードを解析するようなツールを求めている? Limitations
  11. 16/17 Pokemon Red: Pokemon Redのプレイ + バトルを対象に強化学習 (多分,オンラインRL) Conclusion Metamon:

    - ポケモンバトルを対象にしたオフライン強化学習 - オフラインデータセットを公開 ❖ 傾向と今後 ➢ ポケモンプレイを対象にしたオフライン強化学習の余地が残されている ➢ Gemini 2.5 Proがポケモンブルーをクリア (20250503) ➢ Gemini Plays Pokemon