[Journal club] RREx-BoT: Remote Referring Expressions with a Bag of Tricks

慶應義塾大学杉浦孔明研究室是方諒介 RREx-BoT: Remote Referring Expressions with a Bag
of Tricks Gunnar A. Sigurdsson, Jesse Thomason, Gaurav S. Sukhatme, Robinson Piramuthu (Amazon Alexa AI) IROS 2023 慶應義塾大学杉浦孔明研究室是方諒介 Sigurdsson, G., Thomason, J., Sukhatme, G., Piramuthu, R. "RREx-BoT: Remote Referring Expressions with a Bag of Tricks." IROS 2023.

概要背景 ✓ 参照表現理解を伴うVision-and-Language Navigation (VLN) タスク ✓ 生活支援ロボットは既知環境での動作が想定される提案
✓ pre-exploration & top-1を選択するretrieval設定 ✓ 100,000規模の候補から検索可能にするBag of Tricks 結果 ✓ 2種類の公開ベンチマークにおいてSOTA ✓ TurtleBot3を用いた実機への統合 2

背景：生活支援ロボットは既知環境での動作が想定される ◼ 特定の環境で継続的に活動 → 事前に環境を把握可能  既存のVLNベンチマークは未知環境において評価 ◼ e.g., REVERIE
[Qi+, CVPR20], SOON [Zhu+, CVPR21] 3 SOON

関連研究：pre-explorationを考慮した手法は少ない 4 手法概要 OSMaN [Cirik+, 22] ・ロボット初期化時にマップおよび全矩形領域の候補が提示  探索は実施しない
DUET [Chen+, CVPR22] ・未知環境において，動的にトポロジカルマップを構築 ☺ frontier-basedな探索 AutoVLN [Chen+, ECCV22] ・HM3D [Ramakrishnan+, NeurIPS21] を用いた大規模なデータセット構築・REVERIE, SOONデータセットにおけるSOTA DUET OSMaN

提案手法： Remote Referring Expressions with a Bag of Tricks (RREx-BoT)
◼ pre-exploration & top-1を選択するretrieval設定 ◼ 既知環境で動作するロボットを想定し，敢えてpath lengthを犠牲に ◼ 汎用V&Lモデルにより100,000規模の候補から検索可能にするBag of Tricks 5

汎用V&Lモデル：矩形領域に0/1のラベルを付与してfine-tuning ◼ ViLBERT [Lu+, NeurIPS19] を採用 ◼ Contextual Captionsデータセット [Sharma+,
ACL18] で事前学習済み ◼ 入力 ◼ ：文のトークン列 ◼ ：各候補領域の画像特徴量 ◼ 損失関数 ◼ ：viewpoint ◼ ：シグモイド関数値 ◼ ：モデル ◼ ：GTラベル ◼ ：交差エントロピー誤差 6 ViLBERT

Bag of Tricks (1/5)：候補領域の3次元座標埋め込み  課題：2次元空間の画像で訓練されたV&Lモデルを3次元空間に適用 ☺ 矩形領域の座標 → 3次元座標および半径
◼ 観測するviewpointからの相対座標 7 矩形領域

Bag of Tricks (2/5)：Context Proposal ◼ 訓練 & 推論時，viewpoint毎に400領域を候補として入力 ◼
アノテーション済み + Mask R-CNN [He+, ICCV17] による追加 ◼ 周囲の物体を考慮するため，近傍領域の平均特徴量も入力 8 REVERIE

Bag of Tricks (3/5)：Viewpoint Grouping ◼ 推論時，viewpoint毎にスコアリング → 全体で最大スコアの領域をtop-1に ◼
意図：訓練/推論時の候補領域数の差（400 vs. 100,000）を考慮 ◼ 例：250 viewpoints × 4 images (360°) × 100 regions = 100,000 9

Bag of Tricks (4/5)：Viewpoint Augmentation ◼ 訓練時，確率で対象物体の存在しないviewpointを選択 ◼ すべての候補領域が負例
◼ 意図：訓練/推論時の候補領域数の差（400 vs. 100,000）を考慮 10

Bag of Tricks (5/5)：非網羅的な探索 ◼ 推論時，検索範囲を開始地点からステップまでに限定 ◼ 訓練時における対象物体までのステップ数からを決定
◼ 程度 11

実験設定：2種類の公開ベンチマークにおいて評価 ◼ シミュレーション：REVERIE, SOON ◼ 評価指標 ◼ Success Rate (SR)
↑ ◼ SR penalized by Path Length (SPL) ↑ ◼ Remote Grounding Success (RGS) ↑ ◼ RGS penalized by Path Length (RGSPL) ↑ ◼ その他 ◼ 実機：TurtleBot3 ◼ Mask R-CNNによる物体検出 12 REVERIE 比較指標 REVERIE SOON 指示文数 10,466 26,790 平均文長 21 47 GTステップ数 4-7 2-21 https://e-shop.robotis.co.jp/news_66.php

定量的結果：両ベンチマークにおいてSOTA ◼ 考察 ✓ path lengthを考慮しない指標 (SR, RGS) において提案手法が最良 ✓
path lengthを考慮する指標 (SPL, RGSPL) においては， pre-explorationをカウントしない条件 (PE) では提案手法が最良 13 ◼ REVERIE ◼ SOON

Ablation Study：各”Trick”の有効性を検証 ◼ 考察 ✓ すべての”Trick”が有用 ✓ 特に，Viewpoint Grouping &
Augmentationの寄与が大きい 14 ◼ REVERIE

定性的結果 (1/2)：成功例 ☺ 対象物体の矩形領域がtop-1にランクイン ☺ 対象物体を異なる角度から撮影した矩形領域も上位にランクイン 15

定性的結果 (2/2)：失敗例  無関係な矩形領域がtop-1にランクイン ☺ top-5以内には対象物体の矩形領域が存在 16

まとめ背景 ✓ 参照表現理解を伴うVLNタスク ✓ 生活支援ロボットは既知環境での動作が想定される提案 ✓ pre-exploration &
top-1を選択するretrieval設定 ✓ 100,000規模の候補から検索可能にするBag of Tricks 結果 ✓ 2種類の公開ベンチマークにおいてSOTA ✓ TurtleBot3を用いた実機への統合 17

Appendix：学習設定 ◼ 学習時間：4d ◼ ハードウェア構成：single NVIDIA T4 GPU 18

Appendix：RGSに関するDUETとの詳細な性能比較 19

Appendix：Method Ablation 20

Appendix：Text Ablation 21

[Journal club] RREx-BoT: Remote Referring Expressions with a Bag of Tricks

[Journal club] RREx-BoT: Remote Referring Expressions with a Bag of Tricks

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明研究室是方諒介 RREx-BoT: Remote Referring Expressions with a Bag

概要背景 ✓ 参照表現理解を伴うVision-and-Language Navigation (VLN) タスク ✓ 生活支援ロボットは既知環境での動作が想定される提案

背景：生活支援ロボットは既知環境での動作が想定される ◼ 特定の環境で継続的に活動 → 事前に環境を把握可能  既存のVLNベンチマークは未知環境において評価 ◼ e.g., REVERIE

関連研究：pre-explorationを考慮した手法は少ない 4 手法概要 OSMaN [Cirik+, 22] ・ロボット初期化時にマップおよび全矩形領域の候補が提示  探索は実施しない

提案手法： Remote Referring Expressions with a Bag of Tricks (RREx-BoT)

汎用V&Lモデル：矩形領域に0/1のラベルを付与してfine-tuning ◼ ViLBERT [Lu+, NeurIPS19] を採用 ◼ Contextual Captionsデータセット [Sharma+,

Bag of Tricks (1/5)：候補領域の3次元座標埋め込み  課題：2次元空間の画像で訓練されたV&Lモデルを3次元空間に適用 ☺ 矩形領域の座標 → 3次元座標および半径

Bag of Tricks (2/5)：Context Proposal ◼ 訓練 & 推論時，viewpoint毎に400領域を候補として入力 ◼

Bag of Tricks (3/5)：Viewpoint Grouping ◼ 推論時，viewpoint毎にスコアリング → 全体で最大スコアの領域をtop-1に ◼

Bag of Tricks (4/5)：Viewpoint Augmentation ◼ 訓練時，確率で対象物体の存在しないviewpointを選択 ◼ すべての候補領域が負例

Bag of Tricks (5/5)：非網羅的な探索 ◼ 推論時，検索範囲を開始地点からステップまでに限定 ◼ 訓練時における対象物体までのステップ数からを決定

実験設定：2種類の公開ベンチマークにおいて評価 ◼ シミュレーション：REVERIE, SOON ◼ 評価指標 ◼ Success Rate (SR)

定量的結果：両ベンチマークにおいてSOTA ◼ 考察 ✓ path lengthを考慮しない指標 (SR, RGS) において提案手法が最良 ✓

Ablation Study：各”Trick”の有効性を検証 ◼ 考察 ✓ すべての”Trick”が有用 ✓ 特に，Viewpoint Grouping &

定性的結果 (1/2)：成功例 ☺ 対象物体の矩形領域がtop-1にランクイン ☺ 対象物体を異なる角度から撮影した矩形領域も上位にランクイン 15

定性的結果 (2/2)：失敗例  無関係な矩形領域がtop-1にランクイン ☺ top-5以内には対象物体の矩形領域が存在 16

まとめ背景 ✓ 参照表現理解を伴うVLNタスク ✓ 生活支援ロボットは既知環境での動作が想定される提案 ✓ pre-exploration &

Appendix：学習設定 ◼ 学習時間：4d ◼ ハードウェア構成：single NVIDIA T4 GPU 18

Appendix：RGSに関するDUETとの詳細な性能比較 19

Appendix：Method Ablation 20

Appendix：Text Ablation 21