Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ぼくのかんがえたさいきょうのマリオAI
Search
Ushitora Anqou
December 10, 2018
Programming
620
1
Share
ぼくのかんがえたさいきょうのマリオAI
Ushitora Anqou
December 10, 2018
More Decks by Ushitora Anqou
See All by Ushitora Anqou
Oblivious Online Monitoring for Safety LTL Specification via Fully Homomorphic Encryption
anqou
1
1k
F*でプログラムの正しさを証明する
anqou
1
1.2k
「自作CPUでサイゼリヤ問題」を支える技術
anqou
2
380
10ステップで作るお手軽インタプリタ開発
anqou
3
1.1k
seccamp2018でセルフホストCコンパイラをつくった
anqou
8
5.8k
Other Decks in Programming
See All in Programming
いつか誰かが、と思っていた フロントエンド刷新5年間の実践知
kiichisugihara
1
280
AI Agent と正しく分析するための環境作り
yoshyum
2
520
Oxlintはいかにしてtsgolintのlint ruleを呼び出しているのか
syumai
0
220
How We Practice Exploratory Testing in Iterative Development( #scrumniigata ) / 反復開発の中で、探索的テストをどう実施しているか
teyamagu
PRO
3
850
運転動画を検索可能にする〜Cosmos-Embed1とDatabricks Vector Searchで〜/cosmos-embed1-databricks-vector-search
studio_graph
3
960
ソフトウェア設計の結合バランス #phperkaigi
kajitack
0
510
UaaL×Androidアプリのメモリ計測 — Memory Profilerの先へ
rio432
0
160
RailsTokyo 2026#4: AI様があれば、 Hotwireの弱点は消えるか?
naofumi
3
370
AI時代だからこそ「Bloc」を採用する価値があるのかもしれない
takuroabe
0
190
Stage 3 Decorators でできること / できないこと / TSKaigi 2026
susisu
0
100
新規プロダクトを高速で生み出すハーネスエンジニアリング
seanchas116
3
150
AI時代になぜ書くのか
mutsumix
0
410
Featured
See All Featured
Bash Introduction
62gerente
615
210k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
310
[SF Ruby Conf 2025] Rails X
palkan
2
1k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
570
WENDY [Excerpt]
tessaabrams
10
37k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
170
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.2k
Stop Working from a Prison Cell
hatefulcrawdad
274
21k
Building an army of robots
kneath
306
46k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.6k
Transcript
ぼくのかんがえた さいきょうのマリオ AI 艮 鮟鱇 @ushitora anqou 1
とりあえずデモ https://twitter.com/ ushitora_anqou/status/ 1061234857181765633 2
とりあえずデモ https://goo.gl/VJhD8Q Google URL Shortener は 2019 年 3 月で
サービス終了 3
すごくない?? 4
すごい! 5
いろんなやりかた 6
いろんなやりかた • ルールベース • すたっとさんとか • つらそう 6
いろんなやりかた • ルールベース • すたっとさんとか • つらそう • 遺伝的アルゴリズム •
VT-b とか • つらそう 6
いろんなやりかた • ルールベース • すたっとさんとか • つらそう • 遺伝的アルゴリズム •
VT-b とか • つらそう • ヂープラニーング(DQN) • 梅さんとか • つらそう 6
設定 • エージェント(AI)がマリオをする。 • 環境情報を受け取り、ボタンの押し方 を返す。 画像引用:http://ur0.biz/Ok3H 7
想定解 入力:マリオの状態や周りの情報 ⬇ エージェント f (x) ⬇ 出力:ボタンの押し方 8
ところで • マリオ AI のステージは固定 • ランダム要素はない。 • エージェント出力の種類は有限 •
6 個のボタンの ON/OFF なので 26 = 64 ⬇ 出力を全て決めればその評価は一定 9
どゆこと? 事前にエージェントの出力を決める。 1. 右移動+ダッシュ 2. 右移動+ジャンプ 3. ジャンプ . .
. これを出力した後の状態を評価すると、そ の出力の「よさ」が分かる ➡ 探索可能 10
想定解(再掲) 入力:マリオの状態や周りの情報 ⬇ エージェント f (x) ⬇ 出力:ボタンの押し方 11
鮟鱇解 あからじめ出力が決められた エージェント f () ⬇ 出力:ボタンの押し方 12
全幅探索 計算量:O(64n) 13
おねえさーぁぁん! 画像引用:https://youtu.be/Q4gTV4r0zRs 14
すくなく計算する 64 通りも要らない。 • 左移動と右移動を同時に入力すること はない。 • 上移動は使わない。 • 四六時中ダッシュすればいい。
15
すくなく計算する 4 通りに減らせる。 • ダッシュ+左移動 • ダッシュ+右移動 • ダッシュ+左移動+ジャンプ •
ダッシュ+右移動+ジャンプ 16
続‧すくなく計算する 人間がマリオを遊ぶ。 • 人間の反応時間は 0.2s。 • 片や PC の画面更新は 30fps
→ 0.033s ➡ 人間のほとんどの反応は前と同じ 同様にエージェントの出力をダブらせる。 17
計算量:O ( 4n k ) 18
指数時間はいやだ! 多項式時間で計算したい。 • 貪欲法 • 一番良さそうな手を選択することを繰り 返す。 • 捨てる手が多い。 •
計算量は O(4n) • ビームサーチ • 貪欲法の拡張。 • 今回はこれを選択。 19
ビームサーチ • 良さそうな手を m 個持っておき、その 手から伸びる手を探索する。 • 探索した手のうち、上位 m 個を次の探
索で使う。 • 計算量は O(4mn) • わりとうまくいく。 20
ところで 21
ところで 「良さそうな手」ってなに? 21
評価関数をつくる ϕ : 手 −→ 評価値 ある手がどのくらい「良い」のかを表す関 数をつくる。 22
評価関数をつくる ϕ : 手 −→ 評価値 ある手がどのくらい「良い」のかを表す関 数をつくる。 めっちゃ難しい。 22
続‧評価関数をつくる • マリオの x 座標を使う? • 無謀にジャンプして距離を稼ぎ死ぬ。 • 袋小路に入って死ぬ。 •
マリオの y 座標を使う? • ジャンプし続けて死ぬ。 • その他の指標? • わからん!w 23
どうしたか 「接地していたマリオの x 座標の最大値」 24
どうしたか 「接地していたマリオの x 座標の最大値」 • 接地していないと評価にならない。 • 無謀なジャンプを低評価に。 • 最大値をとることで袋小路にスタック
することを防ぐ。 • 全ての行動が等価になるので、乱択で行 動が決まる。 24
評価関数図解 1 25
評価関数図解 2 26
評価関数図解 3 27
まとめ • マリオ AI は意外と難しかった。 • 正直喋れてないことはたくさんある。 • どうでもいいけどステージ 4–1
は クソ。 • そのうちコソッとコードは公開します。 28
ご清聴 ありがとうござ いました 29