Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] GraphEQA: Using 3D Semantic Scen...

[Journal club] GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 名字氏名 GraphEQA: Using 3D Semantic Scene Graphs for

    Real-time Embodied Question Answering Saumya Saxena1*, Blake Buchanan2*, Chris Paxton3, Bingqing Chen4, Narunas Vaskevicius4, Luigi Palmieri4, Jonathan Francis1,4, Oliver Kroemer1 (1Carnegie Mellon University, 2Neya Systems, 3Hello Robot Inc., 4Bosch Center for AI) CoRL 2025 慶應義塾大学 杉浦孔明研究室 是方諒介 Saxena, S., Buchanan, B., Paxton, C., Chen, B., Vaskevicius, N., Palmieri, L., Francis, J., Kroemer, O. "GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering." CoRL 2025.
  2. 概要 背景 ✓ EQAタスクにおける, 構造的な環境表現の獲得 提案 ✓ 逐次更新可能な3D Metric-Semantic Scene

    Graph ✓ VLMを用いた階層的なプランニングによる”過信”抑制 結果 ✓ HM-EQAにおける全質問カテゴリで既存手法を凌駕 ✓ 実機を用いた実環境への適用 2
  3. 背景:Embodied Question Answering (EQA [Das+, CVPR18]) ◼ 環境に関する質問が与えられ,ロボットが探索・理解・回答を一体で実施 ◼ 課題

    ✓ 逐次更新可能なsemantic representationの獲得 ✓ 過去の観測情報を基にした効率的な探索 3 自由記述式(e.g., OpenEQA [Majumdar+, CVPR24]) 選択肢式(e.g., HM-EQA [Ren+, RSS24]) 質問カテゴリ: 識別,数え上げ, 有無,状態,場所
  4. 関連研究:構造化されたグラフを逐次構築可能な手法は限定的 4 手法 概要 3DMem [Yang+, CVPR25] 過去に観測したsnapshotを集約し,VLMを用いて探索  部屋等の構造化された情報を持たない

    SayPlan [Rana+, CoRL23 (Oral)] Scene Graphに対する,LLMを用いたタスクプランニング  物体同士の関係性等,高次の意味推論が困難 Embodied-RAG [Xie+, 24] 観測画像のキャプションを階層的に集約する実世界のRAG  pre-explorationを前提とし,逐次のグラフ構築に不向き SayPlan Embodied-RAG 3DMem
  5. 3D Metric-Semantic Scene Graph (3DSG): Hydra [Hughes+, RSS22] + LLMに基づく,階層的な環境表現

    ◼ 未知環境を探索しながら,逐次3DSG + 2D mapを構築(≠ pre-exploration) ◼ Room Enrichment ◼ LLMを用いて,含まれる物体群から部屋ノードのラベル分類 ◼ Frontier Enrichment ◼ 未探索領域もノードとして扱い,近傍の物体とエッジを結ぶ 6 意味的なプランニング パスプランニング + 未探索領域の保持 Hydra → ☺ 意味的に解釈可能なプランニングを実現
  6. Task-Relevant Visual Memory: 質問と関連度の高い観測画像のみを効率的に保持 ◼ 一定周期で観測画像を保存  大半は質問に無関係 → SigLIP

    [Zhai+, ICCV23] を用いて上位 個を保持 ☺ 現在視点のみに依存しないプランニングを実現 7 例:Q. Is the front door, next to the staircase, open?
  7. Hierarchical Vision-Language Planner: VLMに基づき,階層的な構造を考慮して次の行動 or 回答を出力 ◼ 入力:質問 + 3DSG

    + Visual Memory + 現在位置 + 行動選択の履歴 ◼ 出力:回答 + 確信度 + 回答根拠 + 次の行動 ◼ 探索継続の場合:部屋→物体ノードの順に選択(☺ 環境の構造を考慮) ◼ 終了判定: ☺ “過信”による誤答を抑制 8 例:Q. Is the front door, next to the staircase, open?
  8. 実験設定:シミュレーション & 実機の両方で検証 シミュレーション:HM-EQA [Ren+, RSS24] ◼ 5カテゴリ,500サンプル(選択肢式) 評価指標 ◼

    成功率↑ [%] ◼ プランニング回数↓ ◼ 経路長 ↓ [m] 9 実機 ◼ ロボット:Stretch RE2 ◼ 環境:2種類 ◼ 試行回数:5回/環境 Home Office
  9. まとめ 背景 ✓ EQAタスクにおける, 構造的な環境表現の獲得 提案 ✓ 逐次更新可能な3D Metric-Semantic Scene

    Graph ✓ VLMを用いた階層的なプランニングによる”過信”抑制 結果 ✓ HM-EQAにおける全質問カテゴリで既存手法を凌駕 ✓ 実機を用いた実環境への適用 12