[Journal club] Object Memory Transformer for Object Goal Navigation

慶應義塾大学杉浦孔明研究室名字氏名 Object Memory Transformer for Object Goal Navigation
Rui Fukushima1, Kei Ota2,3, Asako Kanezaki2, Yoko Sasaki1, Yusuke Yoshiyasu1 (1National Institute of Advanced Industrial Science and Technology, 2Tokyo Institute of Technology, 3Information Technology R&D Center, Mitsubishi Electric Corporation) ICRA 2022 慶應義塾大学杉浦孔明研究室是方諒介 Fukushima, R., Ota, K., Kanezaki, A., Sasaki, Y., Yoshiyasu, Y. “Object Memory Transformer for Object Goal Navigation.” ICRA 2022.

概要背景 ✓ object goal navigationタスクにおける深層強化学習手法の性能は不十分提案 ✓ シーン画像および物体に関する長期記憶を保持するObject-Scene Memory
✓ 過去の観測から顕著な物体に着目するtransformerの活用結果 ✓ AI2-THORベンチマークにおいてSOTA 2

背景：object goal navigation (ObjNav) ◼ 目的：3次元屋内環境における，対象物体へのnavigation  初期位置から対象物体が直接視認不可の場合が存在  深層強化学習を用いた手法は人間の性能に大きく劣る
◼ 入力 ① 対象物体を表す単語（e.g., “Pillow”） ② ロボットの一人称視点画像 3

関連研究：物体の意味的/空間的知識の活用 ◼ 課題  過去に観測済みの物体およびその出現順に関する記憶を考慮した手法は少ない 4 手法概要 Scene Prior
[Yang+, 18] ・ObjNavタスクに初めて深層強化学習を導入・Graph Convolution Networksにより物体に関する知識グラフを構築 [Druon+, RA-L20] ・物体同士の意味の類似度およびその位置を埋め込むcontext gridを提案 Scene Prior [Yang+, 18] [Druon+, RA-L20]

提案手法：Object Memory Transformer (OMT) ◼ シーン画像および物体に関する長期記憶を活用 ◼ 4つの主要モジュールから構成 ① Feature
Extractor，② Object-Scene Memory，③ Transformer，④ Controller 5

① Feature Extractor：シーンの画像特徴/Object Gridを取得 ◼ 検出物体同士の関係をObject Grid で表現 [Druon+, RA-L20]
◼ 検出矩形領域の中心点に，対象物体とのコサイン類似度を付与 6 ResNet-50による画像特徴抽出 word2vecによる単語の埋め込み：対象物体を表す単語のベクトル表現：検出物体を表す単語のベクトル表現

② Object-Scene Memory：過去時刻分の特徴量保持 ◼ 画像特徴およびObject Grid をリングバッファ形式で記憶 ◼
各時刻において，両者を融合した特徴量を取得 7 ：学習可能なネットワーク

③ Transformer：長期記憶から，navigationに有効な特徴量を獲得 ◼ encoder-decoderの構造は標準的なtransformerと同様 ◼ Positional Encodingに倣ったTemporal Encodingを導入 ◼
観測順序に関する情報の欠落を防止 8 対象物体とのattention ：対象物体を表す単語のベクトル表現：各時刻において，画像特徴とObject Gridを融合した特徴量

④ Controller：9種類の行動から1つ選択 ◼ Asynchronous Advantage Actor-Critic (A3C) [Mnih+, ICML16]
◼ Actor-Criticを並列かつ非同期に学習 ◼ 対象物体への接近および短い経路の選択を促す報酬の設計 9 ：各時刻において，画像特徴とObject Gridを融合した特徴量

実験設定：AI2-THOR [Kolve+, 17] ◼ photo-realisticなシミュレータ ◼ 評価指標 ① Success Rate
(SR) ② Success weighted by Path Length (SPL) 10 # Room Categories # Environments (train : test) # Object Classes 4 80 : 20 146 Kitchen Living Room Bedroom Bathroom ：成功フラグ（0/1）：最短経路長：要した経路長

定量的結果：SR, SPLともに既存手法を凌駕 ◼ 提案手法について，3パターンの系列長で実験 ◼ 考察 ✓ LSTMを用いて時系列データを扱う拡張を行った場合の効果は限定的 ✓
より長期の記憶を保持した方がSPLが高い（= 効率的なnavigationが可能） 11

Ablation Study：各要素の有効性を確認 ◼ 考察 ✓ transformerにおけるTemporal Encodingの寄与が最大 ✓ 効率的なnavigationにはObject Memory
(Object Grid) が有効 12

定性的結果：長期記憶を活かしたスタック回避 ◼ 既存手法  障害物を回避できずスタック状態に陥る  対象物体への接近が不十分 ◼ 提案手法 ☺
観測情報に変化がないことから，スタック状態を認識して脱出 ☺ 対象物体に正面から近づけない場合は，側面から回り込んで接近 13

まとめ背景 ✓ ObjNavタスクにおける深層強化学習手法の性能は不十分提案 ✓ シーン画像および物体に関する長期記憶を保持するObject-Scene Memory ✓ 過去の観測から顕著な物体に着目するtransformerの活用
結果 ✓ AI2-THORベンチマークにおいてSOTA 14

Appendix：学習設定 15 Transformer #L: 1, #A: 5 Optimizer RMSprop Learning
rate Max time steps 300 GPU 4 NVIDIA V100

[Journal club] Object Memory Transformer for Object Goal Navigation

[Journal club] Object Memory Transformer for Object Goal Navigation

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明研究室名字氏名 Object Memory Transformer for Object Goal Navigation

概要背景 ✓ object goal navigationタスクにおける深層強化学習手法の性能は不十分提案 ✓ シーン画像および物体に関する長期記憶を保持するObject-Scene Memory

背景：object goal navigation (ObjNav) ◼ 目的：3次元屋内環境における，対象物体へのnavigation  初期位置から対象物体が直接視認不可の場合が存在  深層強化学習を用いた手法は人間の性能に大きく劣る

関連研究：物体の意味的/空間的知識の活用 ◼ 課題  過去に観測済みの物体およびその出現順に関する記憶を考慮した手法は少ない 4 手法概要 Scene Prior

提案手法：Object Memory Transformer (OMT) ◼ シーン画像および物体に関する長期記憶を活用 ◼ 4つの主要モジュールから構成 ① Feature

① Feature Extractor：シーンの画像特徴/Object Gridを取得 ◼ 検出物体同士の関係をObject Grid で表現 [Druon+, RA-L20]

② Object-Scene Memory：過去時刻分の特徴量保持 ◼ 画像特徴およびObject Grid をリングバッファ形式で記憶 ◼

③ Transformer：長期記憶から，navigationに有効な特徴量を獲得 ◼ encoder-decoderの構造は標準的なtransformerと同様 ◼ Positional Encodingに倣ったTemporal Encodingを導入 ◼

④ Controller：9種類の行動から1つ選択 ◼ Asynchronous Advantage Actor-Critic (A3C) [Mnih+, ICML16]

実験設定：AI2-THOR [Kolve+, 17] ◼ photo-realisticなシミュレータ ◼ 評価指標 ① Success Rate

定量的結果：SR, SPLともに既存手法を凌駕 ◼ 提案手法について，3パターンの系列長で実験 ◼ 考察 ✓ LSTMを用いて時系列データを扱う拡張を行った場合の効果は限定的 ✓

Ablation Study：各要素の有効性を確認 ◼ 考察 ✓ transformerにおけるTemporal Encodingの寄与が最大 ✓ 効率的なnavigationにはObject Memory

定性的結果：長期記憶を活かしたスタック回避 ◼ 既存手法  障害物を回避できずスタック状態に陥る  対象物体への接近が不十分 ◼ 提案手法 ☺

まとめ背景 ✓ ObjNavタスクにおける深層強化学習手法の性能は不十分提案 ✓ シーン画像および物体に関する長期記憶を保持するObject-Scene Memory ✓ 過去の観測から顕著な物体に着目するtransformerの活用

Appendix：学習設定 15 Transformer #L: 1, #A: 5 Optimizer RMSprop Learning