Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Multi-View Masked World Models for Visua...
Search
tt1717
October 25, 2023
Research
0
36
[論文紹介] Multi-View Masked World Models for Visual Robotic Manipulation
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
October 25, 2023
Tweet
Share
More Decks by tt1717
See All by tt1717
[論文サーベイ] Survey on GPT for Games
tt1717
0
25
[論文サーベイ] Survey on World Models for Games
tt1717
0
37
[論文サーベイ] Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari Tasks
tt1717
0
32
[論文サーベイ] Survey on Visualization in Deep Reinforcement Learning of Game Tasks 2
tt1717
0
32
[論文サーベイ] Survey on VLM and Reinforcement Learning in Game Tasks (Minecraft)
tt1717
0
52
[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale
tt1717
0
81
[論文紹介] Chip Placement with Deep Reinforcement Learning
tt1717
0
49
[論文紹介] Human-level control through deep reinforcement learning
tt1717
0
250
[論文紹介] Transformer-based World Models Are Happy With 100k Interactions
tt1717
0
110
Other Decks in Research
See All in Research
Tietovuoto Social Design Agency (SDA) -trollitehtaasta
hponka
0
3.4k
2038年問題が思ったよりヤバい。検出ツールを作って脅威性評価してみた論文 | Kansai Open Forum 2024
ran350
8
3.7k
新規のC言語処理系を実装することによる 組込みシステム研究にもたらす価値 についての考察
zacky1972
1
310
[ECCV2024読み会] 衛星画像からの地上画像生成
elith
1
1k
打率7割を実現する、プロダクトディスカバリーの7つの極意(pmconf2024)
geshi0820
0
240
Bluesky Game Dev
trezy
0
120
Weekly AI Agents News! 10月号 論文のアーカイブ
masatoto
1
480
データサイエンティストをめぐる環境の違い 2024年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
990
Optimal and Diffusion Transports in Machine Learning
gpeyre
0
920
Leveraging LLMs for Unsupervised Dense Retriever Ranking (SIGIR 2024)
kampersanda
2
290
Elix, CBI2024, スポンサードセッション, Molecular Glue研究の展望:近年の進展とAI活用の可能性
elix
0
120
Weekly AI Agents News! 12月号 論文のアーカイブ
masatoto
0
140
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
521
39k
Why Our Code Smells
bkeepers
PRO
335
57k
It's Worth the Effort
3n
184
28k
How to Think Like a Performance Engineer
csswizardry
22
1.3k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
20
2.4k
Rails Girls Zürich Keynote
gr2m
94
13k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
7
590
Automating Front-end Workflow
addyosmani
1367
200k
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
33
2.8k
Raft: Consensus for Rubyists
vanstee
137
6.7k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・多視点MAEを学習し,世界モデルを学習するMV-MWMを提案 ・シミュレーションで学習した方策をカメラキャリブレーションな しで実ロボットタスクを解決できる ・ビジュアルフィードバックによるロボット制御の頑健性を示す ・MWMをベースラインとして比較する ・マルチビュー制御&シングルビュー制御と視点ロバスト制御タス
クを実施 ・視点ランダムによる実験 ・アブレーションスタディ 「視点にマスク,ビデオAEのありなし,マスキング比率」 1.多視点データが与えられたときに,ランダムに画像をマスクした 視点をマスクしていない視点の両方の画素を再構成する多視点MAE の学習を行う 2.多視点MAEから取得した特徴から世界モデルを学習し,シミュ レーションと実世界の両方で「マルチビュー制御,シングルビュー 制御,視点ロバスト制御」などの様々なロボット制御を行う ・MWM (Masked World Model)の入力に使う画像を多視点画像を入 力としたもの ・複数のランダムな視点で学習した多視点MAEにより,カメラキャ リブレーションなしに実ロボットタスクを解決 Multi-View Masked World Models for Visual Robotic Manipulation (ICML 2023) Younggyo Seo, Junsu Kim, Stephen James, Kimin Lee, Jinwoo Shin, Pieter Abbeel https://arxiv.org/abs/2302.02408 2023/06/18 論文を表す画像 被引用数:1 1/7
Masked Autoencoder (MAE) ❏ パッチに分割された画像の75%をマスクしてViTに入力 ❏ 損失関数 ❏ マスクされたパッチの再構成誤差(MSE) ❏
画像分類タスクで高精度を達成 2/7 出典:https://arxiv.org/abs/2111.06377
実験 3/7 ❏ Meta-world ❏ RLBench ❏ DeepMind Control Suite
結果 4/7 ❏ 性能・サンプル効率ともにDreamerV2から改善 ❏ Pick Placeタスクの小さな物体が重要なタスクでは差が顕著 ❏ Quadruped Walkタスクの小さな物体のないタスクでは同等程度
小さな物体を 扱うタスク 小さな物体を扱わ ないタスク
結果:Ablation Studies 5/7 画像直接ではなく特徴量 マスクで性能向上 75%のマスクで最高性能 報酬予測で性能向上 ❏ 特徴量マスク+マスク比率75%+報酬予測で最高性能
まとめ 6/7 ❏ 世界モデルの画像表現学習にMAEを使用 ❏ 画像直接ではなく中間層でマスキング ❏ 報酬予測によりタスクに適した表現を獲得 ❏ DreamerV2と比較して小さな物体を扱うタスクで大幅に性能改善
参考文献 ❏ googleサイト 7/7