Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文サーベイ] Survey on Pokemon AI

tt1717
April 23, 2025

[論文サーベイ] Survey on Pokemon AI

[論文サーベイ] Survey on Pokemon AI
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
1.PokeLLMon: A Human-Parity Agent for Pokemon Battles with Large Language Models,
Sihao Hu et al. (Georgia Institute of Technology.)
ICLR'25 [Withdrawal] (Cited by: 21 )
2.PokeChamp: an Expert-level Minimax Language Agent for Competitive Pokemon,
Seth Karten et al. (Princeton University.)
NeurIPS'24 [Workshop] (Cited by: 1 )

tt1717

April 23, 2025
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. Survey on Pokemon AI タイトル 学会 著者/所属 引用数 PokeLLMon: A

    Human-Parity Agent for Pokemon Battles with Large Language Models ICLR'25 [Withdrawal] Sihao Hu et al. (Georgia Institute of Technology.) 21 PokeChamp: an Expert-level Minimax Language Agent for Competitive Pokemon NeurIPS'24 [Workshop] Seth Karten et al. (Princeton University.) 1 2025/04/23 1/25
  2. 背景: - ポケモンのような戦略的かつ情報量の多いバトルゲームでは,LLMのハル シネーションや行動の一貫性に問題 目的: - LLMが自律的にポケモンバトルを行い,人間と対戦できるようにすること 貢献: - 以下の3つの戦略を導入し,行動精度と戦術性を向上

    1.In-Context Reinforcement Learning (ICRL):テキストフィードバックを報酬として活用 2.Knowledge-Augmented Generation (KAG):外部知識によるハルシネーション抑制 3.Consistent Action Generation:連続交代(パニック交代)を防止 2/25 Overview
  3. 5/25 Preliminary Evaluation 対戦相手: - ヒューリスティックBot - ステータス上昇技の使用 - 設置技

    (e.g., ステルスロック) による場の制圧 - タイプ相性や技の威力を考慮して行動選択 結果: - GPT-3.5, LLaMA-2はハルシネーションが多発 - e.g.,) タイプ相性を逆に認識し「くさタイプがほのおタイプに有利」と判断 Human:人間のプレーヤー Random:完全にランダムに行動を選択 MaxPower:威力が最も高い技を選択
  4. • e.g.,) ドクロッグの特性「かんそうはだ」により,みずタイプの技は無効 ◦ 「効果がない」と表示されるが,この情報は状態説明に含まれない ◦ LLMが状況を理解できず,無効な技を繰り返してしまう -> そこで,フィードバック (e.g.,

    HPの変化) をテキストで与えることで,LLM に「報酬」を与える -> LLMが過去の結果を踏まえて判断を修正し,より適切な次の行動を選択する 7/25 In-Context Reinforcement Learning (ICRL)
  5. • LLMに与える4種類のテキストフィードバック 1. 前のターンと今のターンのHPを比較 a. 攻撃技によって実際に与えたダメージ量を確認 2. 攻撃技の相性 a. タイプ相性や特性・技の効果により,「効果ばつぐん」

    「いまひとつ」「効果なし(無効)」を明示する 3. 行動順(先攻・後攻) a. 相手のすばやさステータスは不明であるため,どちらが 先に行動したかですばやさの優劣のヒントを提示 4. 実行された技の効果 a. 変化技や特定の攻撃技が,ステータスの上昇・下降,HP の回復,状態異常(どく・やけど・こおりなど)を反映 8/25 In-Context Reinforcement Learning (ICRL)
  6. • タイプ相性(有利・不利)の関係:[Type] ◦ 相手ポケモンと自分のポケモンの有利・不利 関係を明示的に記述 ◦ e.g.,) リザードンは「くさタイプ」につよい • 技・特性の効果:

    [Effect] ◦ 技や特性はそれぞれ異なる効果があり,人間 が全てを記憶するのは困難 ◦ 全ての技や特性に関する説明をポケモン図鑑 (Pokédex)として保存 ◦ バトルに出ている各ポケモンについて,技・ 特性の情報を図鑑から取得し,状態に追加 11/25 Knowledge-Augmented Generation (KAG) Pokédexの例
  7. 13/25 Consistent Action Generation • Chain-of-Thought(CoT) ◦ 状況に対して段階的に思考を記述し,その推論に基づいて行動を選択 • Self-Consistency(SC,

    k=3) ◦ 同じプロンプトで3回行動を出力し,最多票を得た行動を選択 • Tree-of-Thought(ToT, k=3) ◦ 3つの異なる行動を出力し,それぞれを評価して,最も良いと思われる 行動を選択 https://arxiv.org/abs/2305.10601
  8. 14/25 Consistent Action Generation • 強力なポケモンと対峙したとき,CoTではバトルを回避しようとする ◦ e.g.,) 3ターン連続で異なるポケモンに交代 ->

    パニック交代と呼ぶ • 結果として,相手にフリーな行動機会を与えることになり,勝率が下がる
  9. 17/25 Results • エージェントは「相手が交代し てくるかもしれない」といった 思考が欠如している • 「現在の状況だけを基に行動を 決定している」 ->読み合いやトリックプレイに対応で

    きないことが課題 1.相手のポケモンが倒れる → キュレムが登場 2.「キュレムはドラゴンに弱い」と判断 3.エージェントがドラゴン技を選択 4.相手はすぐにTapu Buluに交代(ドラゴン技無効) 5.攻撃が無効化 → 攻撃チャンスを無駄にする
  10. 背景: - ポケモンバトルは広大な状態空間 (初手だけで10³⁵⁴通り以上)を持ち ,Mini-Max法による解決が適した対戦環境 目的: - LLMを用いて意思決定を強化したMini-Maxエージェントを構築すること 貢献: -

    第9世代OU環境でLLMベース/ルールベースのボットを大幅に上回る勝率 18/25 Overview Elo rating:対戦型の競技(2人のプレイ ヤーが対戦して勝敗を決めるタイプの競 技)において,相対評価で実力を表すため に使われる指標
  11. 19/25 Framework 種類 提供タイミング 情報の性質 主な用途 Historical statistics 事前知識(静的) 全体統計/メタ情報

    相手ステータスや行動の予測に活用 Historical turns プレイ中の記録(動的) 試合内の行動履歴 状況把握に活用
  12. • Player Action Sampling - LLMが現在の観測情報から有力なプレイヤーの行動候補を生成し,探索木の枝を絞る • Opponent Modeling -

    LLMが相手視点をイメージし,予想される行動を推定する (相手の見えていない努力値や性格などは推論で補完) • Value Function Estimation - 探索を深さ k で打ち切り,LLMが状態の価値を予測する (残りポケモン数,盤面状況,交代回数などを元にスコア化) 20/25 Method https://kowaragan.com/gameinformatics4minmaxalphabeta/
  13. 21/25 • 現在の状態情報に基づき,与えられた行動がどれだけ早く相手ポケモンを 倒せるか(KOまでのターン数)を推定する仕組み ◦ 各行動について,1ターン先の影響を予測 ▪ stealthrock: 交代で出てくる相手にダメージ →

    KOまで無限ターン(直接ダメージは与えない) ▪ earthpower: KOまでに5ターン ▪ uturn: KOまでに6ターン ▪ grassknot: KOまでに4ターン(最も効率的) Method
  14. • PokéLLMon:LLMベースエージェント • Abyssal Bot:ルールベースのヒューリスティックボット • One Step Lookahead Bot:1ターン先の影響を予測した,ヒューリス

    ティックボット • Max Power Bot:技の威力のみで行動を選択する単純なボット • Random Bot:ランダムに行動を選択するボット 22/25 Results
  15. 24/25 Conclusion PokeLLMon: LLMを用いたポケモンバトルエージェント PokeChamp: LLM + Mini-Max法を用いたポケモンバトルエージェント ❖ 傾向と今後

    ➢ LLMのベンチマークとしてポケモンを使うことがしばらく続きそう ➢ https://www.twitch.tv/claudeplayspokemon