Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Lost & Found: Tracking Changes from Egocentric ...
Search
Spatial AI Network
June 02, 2025
0
18
Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs
- 1人称視点カメラを用いた3Dシーングラフでの変化追跡
- 既存のRGB-D手法を上回る物体姿勢追跡が可能に
Spatial AI Network
June 02, 2025
Tweet
Share
More Decks by Spatial AI Network
See All by Spatial AI Network
Stable Virtual Camera:Generative View Synthesis with Diffusion Models
spatial_ai_network
0
19
MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion (CVPR 2025)
spatial_ai_network
0
73
Continuous 3D Perception Model with Persistent State
spatial_ai_network
1
88
Sort-free Gaussian Splatting via Weighted Sum Rendering [ICLR 2025]
spatial_ai_network
0
120
Horizon-GS: Unified 3D Gaussian Splatting for Large-Scale Aerial-to-Ground Scenes
spatial_ai_network
0
62
Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction
spatial_ai_network
0
83
VGGT: Visual Geometry Grounded Transformer
spatial_ai_network
1
340
Blurred LiDAR for Sharper 3D: Robust Handheld 3D Scanning with Diffuse LiDAR and RGB
spatial_ai_network
0
66
CV・CG・ロボティクスのためのリー群・リー代数入門
spatial_ai_network
0
510
Featured
See All Featured
A designer walks into a library…
pauljervisheath
206
24k
Documentation Writing (for coders)
carmenintech
71
4.9k
Making Projects Easy
brettharned
116
6.2k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
Measuring & Analyzing Core Web Vitals
bluesmoon
7
480
Done Done
chrislema
184
16k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
770
Building Applications with DynamoDB
mza
95
6.4k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
281
13k
Transcript
Lost & Found: Tracking Changes from Egocentric Observations in 3D
Dynamic Scene Graphs 2025/5/20 Spatial AI Network勉強会 京都⼯芸繊維⼤学 中井 健太 Authors: Tjark Behrens, René Zurbrügg, Marc Pollefeys, Zuria Bauer, Hermann Blum Venue: RA-L 2025 Web: https://behretj.github.io/LostAndFound/
研究の動機:実世界で「働く」ロボットの実現 Lost & Found は「記憶と思考の地図」を作る研究 2 π 0 : Our
First Generalist Policy
デモ 3
概要 What 1⼈称視点カメラを⽤いた3Dシーングラフでの変化追跡 Why 従来の研究は環境を静的シーンに限定。動的である現実世界への適応は難しい How 1⼈称視点から⾒た⼿の位置情報を使って、物体を追跡し動的に3Dシーングラ フを更新 4 https://i.gzn.jp/img/2020/09/17/facebook-ar-smart-glasses-project-aria/s0071.png
背景と課題 • 従来はカメラ視野外で発⽣した変化を検出 • 引き出しにしまった物体などは静的マップでは追跡不能 • 動的シーンの既存の⼿法はカメラ台数‧センサ依存が強い 5
関連研究 6 • 3D Instance Segmentation • 3D Scene Graphs
• Object Pose Tracking • Hand-Object Interactions • Dynamic Semantic SLAM
関連研究:3D Instance Segmentation • シーン内の物体を個別に認識‧分離する⼿法 • 代表的⼿法 ◦ Spherical Mask
[Shin+, CVPR 2024] ◦ Mask3D [Schult+, CVPR 2022] ◦ OneFormer3D [Kolodiazhnyi+, CVPR 2024] 7
関連研究:3D Instance Segmentation Mask3D [Schult+, CVPR 2022] 8 本⼿法では初期シーングラフのノード(物体インスタンス)を構築する
関連研究:3D Scene Graphs • 3Dシーンをノードとエッジで表現するグラフ構造 ◦ ノード:部屋や物体 ◦ エッジ:空間的・意味的関係 •
代表的⼿法 ◦ ConceptGraphs [Gu+, ICRA 2024] ◦ DSGs: Dynamic Scene Graphs [Rosinol+, 2020] 9
関連研究:3D Scene Graphs Dynamic Scene Graphs [Rosinol+, 2020] 10 本⼿法では物体の動きも含めて動的に更新可能なシーングラフを提案
関連研究:3D Scene Graphs Spot-Compose [Lemke+, 2024] 11 本研究ではこの⼿法の引き出し検出を利⽤して、引き出しをノードとして追加する
関連研究:Object Pose Tracking • 画像や点群から物体の位置や回転を推定する • 代表的⼿法の分類 ◦ RGB画像ベース:2D-3D対応点を使いPnPで姿勢推定 ◦
RGB-Dベース:深度情報やCADモデルを使う手法。高精度だが、実環境への 対応が難しい 12
関連研究:Object Pose Tracking • モデルフリー⽅式 ◦ Bundle Track [Wen+, IROS
2021] ◦ BundleSDF [Wen+, CVPR 2023] • モデルベース⽅式 ◦ FoundationPose [Wen+, CVPR 2024] 13 本⼿法ではRGB-Dを使⽤せず、Hand-Object Interactionsを使⽤する BundleTrack BundleSDF FoundationPose
関連研究:Hand-Object Interactions • ⼿と物体の接触を検出することで、アクション認識や物体の情報理解に応⽤ • 課題 ◦ 手が視界を遮る/高速動作/背景の雑音が原因で難しい • 代表的⼿法
◦ Understanding Human Hands in Contact at Internet Scale [Shan+, CVPR 2020] 14
関連研究:Hand-Object Interactions Understanding Human Hands in Contact at Internet Scale
[Shan+, CVPR 2020] 15 この手法を使用して、物体とのインタラクション開始・終了を識別
関連研究:Dynamic Semantic SLAM • 時間的に変化するセマンティックなマップを扱うSLAM • 代表的⼿法 ◦ Khronos [Schmid+,
2024] ◦ MID-Fusion [Xu+, ICRA 2019] 16
関連研究:Dynamic Semantic SLAM Khronos [Schmid+, 2024] 17 本⼿法ではカメラ視野内の動的変化に注⽬
関連研究:Dynamic Semantic SLAM MID-Fusion [Xu+, ICRA 2019] 18 本⼿法ではRGB-Dなしで物体の追跡とマップの更新を実現
本研究での貢献 • ⼀⼈称視点映像と⼿の位置のみで姿勢追跡 • 動的シーングラフを構築‧更新 • ロボットへの応⽤(Teach & Repeat) 19
提案⼿法:アルゴリズム 20
提案⼿法:シーングラフ構造 • ノード:物体インスタンス • エッジ:「close to」「part of」「contains」などの関係 • データ構造:ノードリスト、エッジの隣接リスト、ノード重⼼を含むk-d tree
21
提案⼿法:シーングラフの初期化 • iPadでスキャン→Mask3Dでインスタンスセグメンテーション ◦ RGB画像からも物体検出して 3D点群に投影 →Mask3Dで取りこぼしたオブジェクトもシーングラフに取り込める • Spot-Compose [Lemke+,
2024]を使⽤して引き出しを検出 22
提案⼿法:Hand-Object Interaction検出 • ⼊⼒:各フレームごとの映像、⼿の位置(Aria)、2D接触予測[Shan,2020] • 出⼒:インタラクションの開始/終了フレーム特定 • 条件:2D検出+3D距離+⼿の速度変化 ◦ 開始:2D上で手と物体の接触検出+3D距離が10cm以内
◦ 終了:手の速度変化(物体を持っている間は一定・置いた後に加速) 23
提案⼿法:物体姿勢推定と追跡 • 回転:2D-3D対応点→PnPで姿勢推定 • 並進:⼿と物体の初期オフセットを使って更新 • 同時に複数⼿‧複数物体の追跡が可能 24
提案⼿法:実装詳細 • デバイス ◦ Ariaグラス:RGB映像、カメラ姿勢、手の3D位置 ◦ iPad Pro + スキャンアプリ
• ⼀⼈称映像とシーングラフの位置合わせ ◦ ArUco marker + ICP • インタラクション検出 ◦ 前後8フレームを分析 ◦ 1.15秒の遅延 25
評価実験:実験設定 • Vicon モーションキャプチャーを使⽤して真値を得る • 各オブジェクトに対して約10種類の軌跡でpick&placeを⾏う • 真値は広⾓‧固定カメラで記録 ⇔ 評価対象はAriaカメラフレームで追跡 ◦ Ariaグラスにマーカーを付け、それぞれの軌跡を位置合わせ
26 https://www.tobii.com/ja/products/accessories/ motion-capture https://mocapdb.com/wp-content/uploads/2024/0 6/ValkyrieVK26_02.png
評価実験:⽐較⼿法 • ⽐較対象 ◦ BundleTrack, BundleSDF:RGB-Dと物体マスク ◦ FoundationPose:Transformerベース、CADモデル ◦ HeadPose:Ariaのカメラ姿勢と手の位置のみ
• ⼊⼒条件の統⼀(深度‧マスク‧トラッキング区間) ◦ 深度:Metric3Dv2[Hu, 2024] ◦ マスク:SAM2[Ravi, 2024] 27
評価実験:追跡精度の定量的評価 • 最も精度が⾼く、滑らかな軌跡を⽣成 28 ⻘:最も良いスコア ⽔⾊:2番⽬に良いスコア
評価実験:最終ポーズとフレームレート評価 • Lost & Found が速度‧精度ともに⾼評価 29
アブレーションと考察 • ⼿の位置情報を使わない場合の精度⽐較 • ⼿の情報を使うと精度が上がるが、なくてもある程度追跡可能 30
ロボット応⽤ 31
まとめ • ⼀⼈称視点での物体追跡をScene Graphで管理 • 既存のRGB-D⼿法を上回る追跡が可能 • 今後は視野外の変化検出や変形物体対応が課題 32