Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[RSJ24] Mobile Robot Environment Exploration vi...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 31, 2024
1
64
[RSJ24] Mobile Robot Environment Exploration via 3D Vision-Language Foundation Model and Submodular Optimization
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 31, 2024
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タスクにおける将来成否予測
keio_smilab
PRO
1
97
[RSJ24] Object Retrieval in Large-Scale Indoor Environments Using Dense Text with a Multi-Modal Large Language Model
keio_smilab
PRO
1
350
[RSJ24] Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations
keio_smilab
PRO
0
290
[RSJ24] Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Foundation Models
keio_smilab
PRO
0
170
[RSJ24] Open-Vocabulary Mobile Manipulation Instructions Generation from Multiple Images with Automatic Metric Enhancement
keio_smilab
PRO
0
82
[RSJ24] Open-Vocabulary Mobile Manipulation Based on Dual Relaxed Contrastive Learning with Dense Labeling
keio_smilab
PRO
0
140
[Journal club] GRIT: Faster and Better Image Captioning Transformer Using Dual Visual Features
keio_smilab
PRO
0
58
[Journal club] PAC-Score: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation
keio_smilab
PRO
0
39
[Journal club] CLIP4IDC: CLIP for Image Difference Captioning
keio_smilab
PRO
0
88
Featured
See All Featured
Teambox: Starting and Learning
jrom
131
8.7k
We Have a Design System, Now What?
morganepeng
49
7.2k
What the flash - Photography Introduction
edds
67
11k
Producing Creativity
orderedlist
PRO
341
39k
Code Review Best Practice
trishagee
62
16k
How to Ace a Technical Interview
jacobian
275
23k
How to name files
jennybc
77
99k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
327
21k
Product Roadmaps are Hard
iamctodd
PRO
48
10k
Design by the Numbers
sachag
278
19k
[RailsConf 2023] Rails as a piece of cake
palkan
49
4.7k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.6k
Transcript
3D視覚⾔語基盤モデルと劣モジュラ最適化 による移動ロボットの環境探索 慶應義塾⼤学 鈴⽊駿太郎,松尾榛夏,杉浦孔明
背景:移動ロボットによる効率的な環境把握は重要 - 2 - ⽣活⽀援や物資配送,災害救助におけるロボット活⽤ 効率的な環境情報の把握 L 環境観測にかけられる時間は有限 L 物体位置や環境は変化する可能性がある
問題設定:効率的な環境探索のためのCOPOタスク - 3 - ※最適=環境内の物体を可能な限り多く観測可能な2D姿勢集合の選択 観測姿勢集合組み合わせ最適化(COPO):ロボットの2D姿勢集合を最適化 ⼊⼒: 2Dマップ,環境内の家具に関する点群 出⼒:ロボットの2D観測姿勢 (𝑥,
𝑦, 𝜃) の集合 L 観測姿勢数の増加に伴い,組合せ爆発が起こりNP困難である
関連研究:物体探索および環境把握を扱うタスク - 4 - タスク ⼿法 概要 単⼀の 物体探索 ZAVIS
[Park+, ICRA23] 物体の存在確率から効率的に探索 L COPOでは組合せ爆発 ⾏動系列⽣成 NavCon [Biggie+, CoRL23] LLMを使⽤し,良好な結果 L COPOにおける最適解の近似× COPO SOPO [松尾+, JSAI24] 3D-VLMおよび劣モジュラ性を利⽤ L 観測における遮蔽の考慮△ ZAVIS [Park+, ICRA23] SOPO [松尾+, JSAI24]
提案⼿法:Occlusion Aware SOPO (OA-SOPO) - 5 - 新規性 ▪ 観測領域の遮蔽を考慮するAdaptive
Object Occurrence Scorer ▪ 劣モジュラ性を利⽤した姿勢の選択⼿法Submodular Pose Optimization
3D-VLMによる物体存在マップの取得 Adaptive Object Occurrence Scorer: 観測姿勢の観測領域に対し,⽇常物体の存在スコアを評価 - 6 - OpenScene
[Peng+, CVPR23] を⽤い,⾔語特徴に基づいた物体存在スコアを利⽤ 通路の領域 ⽇常物体の領域 遮蔽物体の領域 OpenScene “Places to put objects that can be carried.” 遮蔽を考慮した⽇常物体存在スコア
Submodular Pose Optimization : 劣モジュラ最適化による組合せ爆発の回避 - 7 - ▪ 劣モジュラ最適化によりカバレッジを最⼤化する観測姿勢集合を選択
▪ 観測姿勢は貪欲法 [Nemhauser+, 78]の(1 − 1/𝑒)近似に基づき選択 観測姿勢 観測姿勢候補集合 選択済みの観測姿勢集合 𝐴から得られるカバレッジ J 最適値の63%を保証 J 実⽤上は90%程度の報告も [河原+, 15] J 組合せ爆発を回避
実験設定:タスク環境の構築 - 8 - ▪ 環境:Matterport3D [Chang+, 3DV17]の3Dモデル10種 ▪ ロボット:HSRモデルを使⽤
▪ 巡回:環境内のボロノイグラフをもとに巡回セールスマンソルバを適⽤ タスク環境 ×4 ×4 ×4
定量的結果:環境を効率的に把握する姿勢集合を選択 - 9 - GPT-4o method:GPT-4oが姿勢集合を選択 SOPO [松尾+, JSAI24] Random
method:姿勢集合をランダム選択 𝑅! = 𝐾個の姿勢から観測された⽇常物体数 環境内の⽇常物体の総数 評価指標 ベースライン⼿法 𝐾: COPOタスクで最適化する観測姿勢数 提案⼿法 GPT-4o SOPO Random
定性的結果(成功例): 環境を効率的に観測する観測姿勢集合を選択 - 10 - 𝐾=8 𝐾=8 L 環境情報に即した姿勢の選択× J
遮蔽を考慮した最適な姿勢の選択 𝐾=8 𝐾=8 観測姿勢② 観測姿勢① GPT-4o 提案⼿法
定性的結果(成功例):遮蔽を考慮した観測姿勢を選択 - 11 - J 観測領域に応じて広範な物体を観測可能なロボット姿勢を選択 観測姿勢① 観測姿勢②
まとめ - 12 - 背景 ▪ ロボットの効果的なタスク実⾏において 環境情報の事前把握は重要 ▪ 無数の観測姿勢を網羅することは⾮現実的
提案⼿法:OA-SOPO ▪ 3D-VLMを⽤いた2D観測姿勢集合の最適化 ▪ 各観測姿勢における遮蔽の考慮 ▪ 劣モジュラ性を利⽤した観測姿勢の選択 結果 ▪ シミュレーション環境において 有益な観測姿勢集合を選択
- 13 - APPENDIX
劣モジュラ性 - 14 - 劣モジュラ性の定義 𝑉を台集合とする集合関数𝑓が劣モジュラ関数であるとき, S ⊆ 𝑇を満たす任意のS, 𝑇
⊆ 𝑉と任意の要素i ⊆ 𝑉 ∖ 𝑇について以下が成り⽴つ. 𝑓 𝑆 ∪ 𝑖 − 𝑓 𝑆 ≥ 𝑓 𝑇 ∪ 𝑖 − 𝑓 𝑇 直感的には J COPOにおいても,観測姿勢数の増加に伴い新規観測数は逓減 集合のサイズを徐々に⼤きくした場合, 要素ごとの増分は逓減していく [河原+,15]
OpenScene [Peng+, CVPR23] - 15 - Open-Vocabularyな3Dシーン理解 ▪ 任意のpromptに対し,3Dモデル上で関連度のheatmapを⽣成可能 ▪
Heatmapにおける閾値はハイパーパラメータ OpenScene [Peng+, CVPR23]
実験設定:タスク環境の統計情報 - 16 - ▪ 10種類のタスク環境(階の移動×) ▪ 平均して6.4部屋および31.4個の家具、36.1個の⽇常物体を含む タスク環境
定性的結果:失敗例 - 17 - ▪ どの物体も既に観測済みであった為,当姿勢における新規観測数は0 ▪ 事前定義したカメラモデルがタスク環境と乖離していた 失敗例
Sensitivity Analysis:重み付け項の感度の調査 - 18 - 𝑅! = ∑ 観測姿勢集合から観測された物体 ∑
環境内の⽇常物体 物体存在スコアの導出 𝒐 = 𝛼 < 𝒐" + 𝒐# − 𝛽 < 𝒓 𝜶 = 𝟐のモデルが最も貢献 𝜶 1 2 4 8 𝑹𝟐𝟓 0.91 1.00 0.89 0.80
エラー分析 - 19 - エラー名 観測数 物体検出器の検出失敗 51 物体存在スコアと環境の乖離 27
観測⾼度の考慮不⾜ 22 観測物体の重複 18 遮蔽物体の考慮不⾜ 3 合計 121 「エラー」の定義 新たな観測姿勢の選択に際して,新たな物体を観測できなかった場合