Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[RSJ24] Mobile Robot Environment Exploration vi...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 31, 2024
1
91
[RSJ24] Mobile Robot Environment Exploration via 3D Vision-Language Foundation Model and Submodular Optimization
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 31, 2024
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
Will multimodal language processing change the world?
keio_smilab
PRO
3
350
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
keio_smilab
PRO
0
71
[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement
keio_smilab
PRO
0
68
[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot
keio_smilab
PRO
0
68
[Journal club] RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
keio_smilab
PRO
1
87
[Journal club] Simplified State Space Layers for Sequence Modeling
keio_smilab
PRO
0
69
[Journal club] Detecting and Preventing Hallucinations in Large Vision Language Models
keio_smilab
PRO
1
97
[IROS24] Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models
keio_smilab
PRO
0
69
[IROS24] Learning-To-Rank Approach for Identifying Everyday Objects Using a Physical-World Search Engine
keio_smilab
PRO
0
120
Featured
See All Featured
Agile that works and the tools we love
rasmusluckow
328
21k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.9k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
Visualization
eitanlees
146
15k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
32
2.7k
It's Worth the Effort
3n
183
28k
Unsuck your backbone
ammeep
669
57k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
1
110
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
GraphQLとの向き合い方2022年版
quramy
44
13k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
17
2.3k
Transcript
3D視覚⾔語基盤モデルと劣モジュラ最適化 による移動ロボットの環境探索 慶應義塾⼤学 鈴⽊駿太郎,松尾榛夏,杉浦孔明
背景:移動ロボットによる効率的な環境把握は重要 - 2 - ⽣活⽀援や物資配送,災害救助におけるロボット活⽤ 効率的な環境情報の把握 L 環境観測にかけられる時間は有限 L 物体位置や環境は変化する可能性がある
問題設定:効率的な環境探索のためのCOPOタスク - 3 - ※最適=環境内の物体を可能な限り多く観測可能な2D姿勢集合の選択 観測姿勢集合組み合わせ最適化(COPO):ロボットの2D姿勢集合を最適化 ⼊⼒: 2Dマップ,環境内の家具に関する点群 出⼒:ロボットの2D観測姿勢 (𝑥,
𝑦, 𝜃) の集合 L 観測姿勢数の増加に伴い,組合せ爆発が起こりNP困難である
関連研究:物体探索および環境把握を扱うタスク - 4 - タスク ⼿法 概要 単⼀の 物体探索 ZAVIS
[Park+, ICRA23] 物体の存在確率から効率的に探索 L COPOでは組合せ爆発 ⾏動系列⽣成 NavCon [Biggie+, CoRL23] LLMを使⽤し,良好な結果 L COPOにおける最適解の近似× COPO SOPO [松尾+, JSAI24] 3D-VLMおよび劣モジュラ性を利⽤ L 観測における遮蔽の考慮△ ZAVIS [Park+, ICRA23] SOPO [松尾+, JSAI24]
提案⼿法:Occlusion Aware SOPO (OA-SOPO) - 5 - 新規性 ▪ 観測領域の遮蔽を考慮するAdaptive
Object Occurrence Scorer ▪ 劣モジュラ性を利⽤した姿勢の選択⼿法Submodular Pose Optimization
3D-VLMによる物体存在マップの取得 Adaptive Object Occurrence Scorer: 観測姿勢の観測領域に対し,⽇常物体の存在スコアを評価 - 6 - OpenScene
[Peng+, CVPR23] を⽤い,⾔語特徴に基づいた物体存在スコアを利⽤ 通路の領域 ⽇常物体の領域 遮蔽物体の領域 OpenScene “Places to put objects that can be carried.” 遮蔽を考慮した⽇常物体存在スコア
Submodular Pose Optimization : 劣モジュラ最適化による組合せ爆発の回避 - 7 - ▪ 劣モジュラ最適化によりカバレッジを最⼤化する観測姿勢集合を選択
▪ 観測姿勢は貪欲法 [Nemhauser+, 78]の(1 − 1/𝑒)近似に基づき選択 観測姿勢 観測姿勢候補集合 選択済みの観測姿勢集合 𝐴から得られるカバレッジ J 最適値の63%を保証 J 実⽤上は90%程度の報告も [河原+, 15] J 組合せ爆発を回避
実験設定:タスク環境の構築 - 8 - ▪ 環境:Matterport3D [Chang+, 3DV17]の3Dモデル10種 ▪ ロボット:HSRモデルを使⽤
▪ 巡回:環境内のボロノイグラフをもとに巡回セールスマンソルバを適⽤ タスク環境 ×4 ×4 ×4
定量的結果:環境を効率的に把握する姿勢集合を選択 - 9 - GPT-4o method:GPT-4oが姿勢集合を選択 SOPO [松尾+, JSAI24] Random
method:姿勢集合をランダム選択 𝑅! = 𝐾個の姿勢から観測された⽇常物体数 環境内の⽇常物体の総数 評価指標 ベースライン⼿法 𝐾: COPOタスクで最適化する観測姿勢数 提案⼿法 GPT-4o SOPO Random
定性的結果(成功例): 環境を効率的に観測する観測姿勢集合を選択 - 10 - 𝐾=8 𝐾=8 L 環境情報に即した姿勢の選択× J
遮蔽を考慮した最適な姿勢の選択 𝐾=8 𝐾=8 観測姿勢② 観測姿勢① GPT-4o 提案⼿法
定性的結果(成功例):遮蔽を考慮した観測姿勢を選択 - 11 - J 観測領域に応じて広範な物体を観測可能なロボット姿勢を選択 観測姿勢① 観測姿勢②
まとめ - 12 - 背景 ▪ ロボットの効果的なタスク実⾏において 環境情報の事前把握は重要 ▪ 無数の観測姿勢を網羅することは⾮現実的
提案⼿法:OA-SOPO ▪ 3D-VLMを⽤いた2D観測姿勢集合の最適化 ▪ 各観測姿勢における遮蔽の考慮 ▪ 劣モジュラ性を利⽤した観測姿勢の選択 結果 ▪ シミュレーション環境において 有益な観測姿勢集合を選択
- 13 - APPENDIX
劣モジュラ性 - 14 - 劣モジュラ性の定義 𝑉を台集合とする集合関数𝑓が劣モジュラ関数であるとき, S ⊆ 𝑇を満たす任意のS, 𝑇
⊆ 𝑉と任意の要素i ⊆ 𝑉 ∖ 𝑇について以下が成り⽴つ. 𝑓 𝑆 ∪ 𝑖 − 𝑓 𝑆 ≥ 𝑓 𝑇 ∪ 𝑖 − 𝑓 𝑇 直感的には J COPOにおいても,観測姿勢数の増加に伴い新規観測数は逓減 集合のサイズを徐々に⼤きくした場合, 要素ごとの増分は逓減していく [河原+,15]
OpenScene [Peng+, CVPR23] - 15 - Open-Vocabularyな3Dシーン理解 ▪ 任意のpromptに対し,3Dモデル上で関連度のheatmapを⽣成可能 ▪
Heatmapにおける閾値はハイパーパラメータ OpenScene [Peng+, CVPR23]
実験設定:タスク環境の統計情報 - 16 - ▪ 10種類のタスク環境(階の移動×) ▪ 平均して6.4部屋および31.4個の家具、36.1個の⽇常物体を含む タスク環境
定性的結果:失敗例 - 17 - ▪ どの物体も既に観測済みであった為,当姿勢における新規観測数は0 ▪ 事前定義したカメラモデルがタスク環境と乖離していた 失敗例
Sensitivity Analysis:重み付け項の感度の調査 - 18 - 𝑅! = ∑ 観測姿勢集合から観測された物体 ∑
環境内の⽇常物体 物体存在スコアの導出 𝒐 = 𝛼 < 𝒐" + 𝒐# − 𝛽 < 𝒓 𝜶 = 𝟐のモデルが最も貢献 𝜶 1 2 4 8 𝑹𝟐𝟓 0.91 1.00 0.89 0.80
エラー分析 - 19 - エラー名 観測数 物体検出器の検出失敗 51 物体存在スコアと環境の乖離 27
観測⾼度の考慮不⾜ 22 観測物体の重複 18 遮蔽物体の考慮不⾜ 3 合計 121 「エラー」の定義 新たな観測姿勢の選択に際して,新たな物体を観測できなかった場合