[RSJ24] Mobile Robot Environment Exploration via 3D Vision-Language Foundation Model and Submodular Optimization

3D視覚⾔語基盤モデルと劣モジュラ最適化による移動ロボットの環境探索慶應義塾⼤学鈴⽊駿太郎，松尾榛夏，杉浦孔明

背景：移動ロボットによる効率的な環境把握は重要 - 2 - ⽣活⽀援や物資配送，災害救助におけるロボット活⽤効率的な環境情報の把握 L 環境観測にかけられる時間は有限 L 物体位置や環境は変化する可能性がある

問題設定：効率的な環境探索のためのCOPOタスク - 3 - ※最適＝環境内の物体を可能な限り多く観測可能な2D姿勢集合の選択観測姿勢集合組み合わせ最適化(COPO)：ロボットの2D姿勢集合を最適化⼊⼒： 2Dマップ，環境内の家具に関する点群出⼒：ロボットの2D観測姿勢 (𝑥,
𝑦, 𝜃) の集合 L 観測姿勢数の増加に伴い，組合せ爆発が起こりNP困難である

関連研究：物体探索および環境把握を扱うタスク - 4 - タスク⼿法概要単⼀の物体探索 ZAVIS
[Park+, ICRA23] 物体の存在確率から効率的に探索 L COPOでは組合せ爆発⾏動系列⽣成 NavCon [Biggie+, CoRL23] LLMを使⽤し，良好な結果 L COPOにおける最適解の近似× COPO SOPO [松尾+, JSAI24] 3D-VLMおよび劣モジュラ性を利⽤ L 観測における遮蔽の考慮△ ZAVIS [Park+, ICRA23] SOPO [松尾+, JSAI24]

提案⼿法：Occlusion Aware SOPO (OA-SOPO) - 5 - 新規性 ▪ 観測領域の遮蔽を考慮するAdaptive
Object Occurrence Scorer ▪ 劣モジュラ性を利⽤した姿勢の選択⼿法Submodular Pose Optimization

3D-VLMによる物体存在マップの取得 Adaptive Object Occurrence Scorer：観測姿勢の観測領域に対し，⽇常物体の存在スコアを評価 - 6 - OpenScene
[Peng+, CVPR23] を⽤い，⾔語特徴に基づいた物体存在スコアを利⽤通路の領域⽇常物体の領域遮蔽物体の領域 OpenScene “Places to put objects that can be carried.” 遮蔽を考慮した⽇常物体存在スコア

Submodular Pose Optimization ：劣モジュラ最適化による組合せ爆発の回避 - 7 - ▪ 劣モジュラ最適化によりカバレッジを最⼤化する観測姿勢集合を選択
▪ 観測姿勢は貪欲法 [Nemhauser+, 78]の（1 − 1/𝑒）近似に基づき選択観測姿勢観測姿勢候補集合選択済みの観測姿勢集合 𝐴から得られるカバレッジ J 最適値の63%を保証 J 実⽤上は90%程度の報告も [河原＋, 15] J 組合せ爆発を回避

実験設定：タスク環境の構築 - 8 - ▪ 環境：Matterport3D [Chang+, 3DV17]の3Dモデル10種 ▪ ロボット：HSRモデルを使⽤
▪ 巡回：環境内のボロノイグラフをもとに巡回セールスマンソルバを適⽤タスク環境 ×4 ×4 ×4

定量的結果：環境を効率的に把握する姿勢集合を選択 - 9 - GPT-4o method：GPT-4oが姿勢集合を選択 SOPO [松尾＋, JSAI24] Random
method：姿勢集合をランダム選択 𝑅! = 𝐾個の姿勢から観測された⽇常物体数環境内の⽇常物体の総数評価指標ベースライン⼿法 𝐾： COPOタスクで最適化する観測姿勢数提案⼿法 GPT-4o SOPO Random

定性的結果（成功例）：環境を効率的に観測する観測姿勢集合を選択 - 10 - 𝐾=8 𝐾=8 L 環境情報に即した姿勢の選択× J
遮蔽を考慮した最適な姿勢の選択 𝐾=8 𝐾=8 観測姿勢② 観測姿勢① GPT-4o 提案⼿法

定性的結果（成功例）：遮蔽を考慮した観測姿勢を選択 - 11 - J 観測領域に応じて広範な物体を観測可能なロボット姿勢を選択観測姿勢① 観測姿勢②

まとめ - 12 - 背景 ▪ ロボットの効果的なタスク実⾏において環境情報の事前把握は重要 ▪ 無数の観測姿勢を網羅することは⾮現実的
提案⼿法：OA-SOPO ▪ 3D-VLMを⽤いた2D観測姿勢集合の最適化 ▪ 各観測姿勢における遮蔽の考慮 ▪ 劣モジュラ性を利⽤した観測姿勢の選択結果 ▪ シミュレーション環境において有益な観測姿勢集合を選択

- 13 - APPENDIX

劣モジュラ性 - 14 - 劣モジュラ性の定義 𝑉を台集合とする集合関数𝑓が劣モジュラ関数であるとき， S ⊆ 𝑇を満たす任意のS, 𝑇
⊆ 𝑉と任意の要素i ⊆ 𝑉 ∖ 𝑇について以下が成り⽴つ． 𝑓 𝑆 ∪ 𝑖 − 𝑓 𝑆 ≥ 𝑓 𝑇 ∪ 𝑖 − 𝑓 𝑇 直感的には J COPOにおいても，観測姿勢数の増加に伴い新規観測数は逓減集合のサイズを徐々に⼤きくした場合，要素ごとの増分は逓減していく [河原＋，15]

OpenScene [Peng+, CVPR23] - 15 - Open-Vocabularyな3Dシーン理解 ▪ 任意のpromptに対し，3Dモデル上で関連度のheatmapを⽣成可能 ▪
Heatmapにおける閾値はハイパーパラメータ OpenScene [Peng+, CVPR23]

実験設定：タスク環境の統計情報 - 16 - ▪ 10種類のタスク環境（階の移動×） ▪ 平均して6.4部屋および31.4個の家具、36.1個の⽇常物体を含むタスク環境

定性的結果：失敗例 - 17 - ▪ どの物体も既に観測済みであった為，当姿勢における新規観測数は０ ▪ 事前定義したカメラモデルがタスク環境と乖離していた失敗例

Sensitivity Analysis：重み付け項の感度の調査 - 18 - 𝑅! = ∑ 観測姿勢集合から観測された物体 ∑
環境内の⽇常物体物体存在スコアの導出 𝒐 = 𝛼 < 𝒐" + 𝒐# − 𝛽 < 𝒓 𝜶 = 𝟐のモデルが最も貢献 𝜶 1 2 4 8 𝑹𝟐𝟓 0.91 1.00 0.89 0.80

エラー分析 - 19 - エラー名観測数物体検出器の検出失敗 51 物体存在スコアと環境の乖離 27
観測⾼度の考慮不⾜ 22 観測物体の重複 18 遮蔽物体の考慮不⾜ 3 合計 121 「エラー」の定義新たな観測姿勢の選択に際して，新たな物体を観測できなかった場合

[RSJ24] Mobile Robot Environment Exploration vi...

[RSJ24] Mobile Robot Environment Exploration via 3D Vision-Language Foundation Model and Submodular Optimization

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Featured

Transcript

3D視覚⾔語基盤モデルと劣モジュラ最適化による移動ロボットの環境探索慶應義塾⼤学鈴⽊駿太郎，松尾榛夏，杉浦孔明

背景：移動ロボットによる効率的な環境把握は重要 - 2 - ⽣活⽀援や物資配送，災害救助におけるロボット活⽤効率的な環境情報の把握 L 環境観測にかけられる時間は有限 L 物体位置や環境は変化する可能性がある

関連研究：物体探索および環境把握を扱うタスク - 4 - タスク⼿法概要単⼀の物体探索 ZAVIS

提案⼿法：Occlusion Aware SOPO (OA-SOPO) - 5 - 新規性 ▪ 観測領域の遮蔽を考慮するAdaptive

3D-VLMによる物体存在マップの取得 Adaptive Object Occurrence Scorer：観測姿勢の観測領域に対し，⽇常物体の存在スコアを評価 - 6 - OpenScene

Submodular Pose Optimization ：劣モジュラ最適化による組合せ爆発の回避 - 7 - ▪ 劣モジュラ最適化によりカバレッジを最⼤化する観測姿勢集合を選択

実験設定：タスク環境の構築 - 8 - ▪ 環境：Matterport3D [Chang+, 3DV17]の3Dモデル10種 ▪ ロボット：HSRモデルを使⽤

定量的結果：環境を効率的に把握する姿勢集合を選択 - 9 - GPT-4o method：GPT-4oが姿勢集合を選択 SOPO [松尾＋, JSAI24] Random

定性的結果（成功例）：環境を効率的に観測する観測姿勢集合を選択 - 10 - 𝐾=8 𝐾=8 L 環境情報に即した姿勢の選択× J

定性的結果（成功例）：遮蔽を考慮した観測姿勢を選択 - 11 - J 観測領域に応じて広範な物体を観測可能なロボット姿勢を選択観測姿勢① 観測姿勢②

まとめ - 12 - 背景 ▪ ロボットの効果的なタスク実⾏において環境情報の事前把握は重要 ▪ 無数の観測姿勢を網羅することは⾮現実的

- 13 - APPENDIX

劣モジュラ性 - 14 - 劣モジュラ性の定義 𝑉を台集合とする集合関数𝑓が劣モジュラ関数であるとき， S ⊆ 𝑇を満たす任意のS, 𝑇

OpenScene [Peng+, CVPR23] - 15 - Open-Vocabularyな3Dシーン理解 ▪ 任意のpromptに対し，3Dモデル上で関連度のheatmapを⽣成可能 ▪

実験設定：タスク環境の統計情報 - 16 - ▪ 10種類のタスク環境（階の移動×） ▪ 平均して6.4部屋および31.4個の家具、36.1個の⽇常物体を含むタスク環境

定性的結果：失敗例 - 17 - ▪ どの物体も既に観測済みであった為，当姿勢における新規観測数は０ ▪ 事前定義したカメラモデルがタスク環境と乖離していた失敗例

Sensitivity Analysis：重み付け項の感度の調査 - 18 - 𝑅! = ∑ 観測姿勢集合から観測された物体 ∑

エラー分析 - 19 - エラー名観測数物体検出器の検出失敗 51 物体存在スコアと環境の乖離 27