Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Human-level control through deep reinfor...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tt1717
April 29, 2024
Research
680
0
Share
[論文紹介] Human-level control through deep reinforcement learning
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
April 29, 2024
More Decks by tt1717
See All by tt1717
[勉強会] Decision Transformer
tt1717
0
67
[論文サーベイ] Survey on Google DeepMind’s Game AI 2
tt1717
0
53
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
41
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
44
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
87
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
85
[論文サーベイ] Survey on Pokemon AI
tt1717
0
120
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
140
[論文サーベイ] Survey on GPT for Games
tt1717
0
92
Other Decks in Research
See All in Research
NII S. Koyama's Lab Research Overview AY2026
skoyamalab
0
260
計算情報学研究室(数理情報学第7研究室)2026
tomohirokoana
0
490
FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
satai
3
820
AGI4OPT:自然言語から数理最適化を導くエ ージェントスキル Translating Human Intent into Mathematical Optimization
mickey_kubo
0
130
Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering
anatolykr
0
180
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
280
さくらインターネット研究所テックトーク2026春、研究開発Gr.25年度成果26年度方針
kikuzo
0
140
Collective Predictive Coding and World Models in LLMs: A System 0/1/2/3 Perspective on Hierarchical Physical AI (IEEE SII 2026 Plenary Talk)
tanichu
1
400
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
shunk031
4
970
進学校の生徒にはア行の苗字が多いのか
ozekinote
0
410
Dual Quadric表現を用いた動的物体追跡とRGB-D・IMU制約の密結合によるオドメトリ推定
nanoshimarobot
0
390
LLM Compute Infrastructure Overview
karakurist
2
1.4k
Featured
See All Featured
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
380
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9.1k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
150
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Reality Check: Gamification 10 Years Later
codingconduct
0
2.2k
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
Become a Pro
speakerdeck
PRO
31
6k
Mobile First: as difficult as doing things right
swwweet
225
10k
Color Theory Basics | Prateek | Gurzu
gurzu
0
320
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.3k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.8k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
320
Transcript
・Atari 2600の49種類のゲームを使用して性能を評価した. ・各ゲームにおいてDQNは観測画像を入力として使用し,従来研究 や人間と比較して高いスコアを達成した. ・先行研究では,特徴を手動で設計する必要があり,低次元の状態 空間でのタスクに限定されていた. ・本研究で提案されたDQNは高次元の入力から直接学習を行うこと ができる. ・CNNを用いて状態空間を処理し,行動価値関数を近似することが 技術的な肝となっている.
・経験再生を使用して,サンプル間の相関関係を低減した.これに より,例えばゲームの次のステップでどのような状態に遷移するか わかりやすいデータの相関を断ち切ることが可能になった. ・高次元の状態入力から方策を学習できるDQNを提案した. ・Atari2600のゲームタスクにおいて,ゲーム内の画像 (状態)を入 力として人間超えの性能を示した. ・DQNが広範なタスクに対して効果的であることを証明した. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? Human-level control through deep reinforcement learning (Nature 2015) Volodymyr Mnih et al., Google DeepMind et al. https://www.nature.com/articles/nature14236 2024/04/29 論文を表す画像 被引用数:29625 1/9
提案手法 ❖ 入力:前処理によって作成された84x84x4の画像を用いる.直近4フレームの ビデオフレームを単一の入力として扱う ❖ CNN層:3つのCNN層があり,それぞれが異なるサイズとストライドのフィル タを使用して入力画像を処理する ➢ 各CNN層での処理後は,ReLU関数で処理される 2/9
❖ 全結合層:各CNN層の後に512の隠れユニットを持つ全結合層によって処理さ れる ➢ この層は,観測状態を基にした行動価値 (Q値) を計算するために使用される ❖ 出力層:各ゲームタスクに応じた行動数だけ出力を持つ ➢
これにより,各行動の予想される行動価値 (Q値) が出力される 提案手法 3/9
❖ a (左):Space Invadersでの平均スコア ➢ エポック数が増えていくと,スコアも向上している ❖ b (右):Seaquestでの平均スコア ➢
エポック数が増えていくと,スコアも向上している ❖ この結果は,DQNが異なるゲーム環境においても効果的にタスクを学 習できることを示している 実験結果 4/9
❖ a (左):Space Invadersでの状態集合に対する平均行動価値 ➢ エポック数が増えていくと,Q値も向上している ❖ b (右):Seaquestでの状態集合に対する平均行動価値 ➢
エポック数が増えていくと,Q値も向上している ❖ DQNエージェントが異なるゲーム環境において効果的に行動価値を予 測できるようになっていく様子がグラフからわかる 実験結果 5/9
❖ 縦軸:各ゲーム ❖ 横軸:人間方策とランダム方策 によるスコアを基準にして正規 化したもの (%) ❖ At human-level
or above ➢ この基準線以上のゲームタスク ではDQNは高い学習能力を 持っていることを示す ❖ Below human-level ➢ この基準線以下のゲームタスク ではDQNエージェントのさら なる改善の必要性がある ❖ すべてのゲームで一様に高性能 というわけではなく,タスクに よっては人間の方が上手なタス クもある 実験結果 6/9
❖ 最後の隠れ層表現を2次元t-SNE を用いて視覚化したもの ❖ 行動価値 (Q値) を色の範囲で示す ➢ 赤 (高い)
から青 (低い) ❖ 特定のゲーム状態の行動価値が視 覚的に説明され,状態の有利さを 示す ❖ ゲーム状態の評価 ➢ 期待される報酬の高い or 低い ➢ 有利なゲーム状態(敵が多い) で高い状態価値が予測される ➢ 不利なゲーム状態(敵が少な い)では低い状態価値が予測さ れる ❖ 期待される報酬が高い or 低い ゲーム状態でマッピングされる 実験結果 7/9
まとめ 8/9 ❖ 状態空間の多いゲームタスクにおいてCNNを用いた特徴抽出によって 人間超えを達成した ❖ 一部のゲームタスクでは人間に劣るものの,ほとんどのゲームタスク では提案手法が優勢であった
❖ 観測画像をCNNで処理して,それを強化学習における行動選択に落と し込むアイデアが斬新だった ❖ Minecraftなどの奥行きがある3Dゲームでは,提案手法は有効なの か? 感想 9/9