Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Mobi-𝜋: Mobilizing Your Robot Learning Policy

Mobi-𝜋: Mobilizing Your Robot Learning Policy

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Transcript

  1. M1 八島大地 Mobi-𝜋: Mobilizing Your Robot Learning Policy Jingyun Yang1,

    Isabella Huang2, Brandon Vu1, Max Bajracharya2, Rika Antonova3, Jeannette Bohg1 1Stanford University 2Toyota Research Institute 3University of Cambridge CoRL25 Jingyun Yang, et al. “Mobi-𝜋: Mobilizing Your Robot Learning Policy.” CoRL2025
  2. 概要 2 • 背景 • 固定視点で学習したmanipulation policyをmobile robotにそのまま載せると OODになり失敗しやすい •

    提案 • 3DGSで再構成した環境画像からpolicy に適したbase poseを探索 • 追加データを集めずに既存policyをmobile化 • 結果 • simulationおよび実機の両方で baselineを上回る性能
  3. 背景: 固定視点で学習されたpolicyはmobile robotにて性能低下 4 • 学習時のobservationが限定されるとpolicyの入力分布は camera viewpointにoverfitする傾向 • policyを視点に対して頑健にするには多量の追加データ

    および再学習が必要 • pi0: 10000時間以上のpretrainingデータ pi0を50サンプルで 学習させた例  移動とともにカメラも移動 → Policyを再学習すること なくmobile化したい Physical Intelligence
  4. 関連研究 5 手法 概要 LeLaN [Hirose+, CoRL23] VLFM [Yokoyama+, ICRA24]

    基盤モデルを用いてsemantic navigationや waypoint selectionを行う → 対象物体の近傍まで移動することには強いが,下流の manipulation policyが 成功しやすい視点・姿勢を明示的に最適化するわけではない pi0 [Black+, RSS24] pi05 [Black+, CoRL25] 大規模データでend-to-endに学習したVLA → 環境・embodimentごとにfinetuningが必要 MomanipVLA [Wu+, CVPR25] table-topで学習されたVLAに拡張 VLAが予測したEE pose を用いて,base と arm の動作を協調的に決定 [Yokoyama+, ICRA24] [Wu+, CVPR25]
  5. 提案手法: Mobi-𝜋 6 • 目的: 未知環境にてmanipulation policyによる物体操作が成功する mobile base poseを探索したい

    Step1: 3DGSで環境を再構成 画像をサンプリング Step2: 再構成した画像に対して3観点に対してスコアを計算 Baysian optimizationで最適化
  6. 提案手法: Mobi-𝜋 7 • 目的: 未知環境にてmanipulation policyによる物体操作が成功する mobile base poseを探索したい

    Step1: 3DGSで環境を再構成 画像をサンプリング Step2: 再構成した画像に対して3観点に対してスコアを計算 Baysian optimizationで最適化
  7. 提案手法: Mobi-𝜋 8 • 目的: 未知環境にてmanipulation policyによる物体操作が成功する mobile base poseを探索したい

    Step1: 3DGSで環境を再構成 画像をサンプリング Step2: 再構成した画像に対して3観点に対してスコアを計算 Baysian optimizationで最適化
  8. Step2: 3DGSで環境を再構成し,画像をサンプリング 10 • Collision-free pose: ロボット姿勢が衝突しない • In-distribution: 再構成画像が学習データの分布に近い

    再構成画像 Manipulation policyの学習 に使用したobservation DINOの潜在特徴を使用したKNNで 学習データの分布に近い画像の robot poseを選択 • Object visibility: 対象物体が十分に視認可能 MLLM(MiniCPM-v2)を用いて 対象物体が再構成画像内に 存在するかを検出 事前収集したdepth情報を使用して occupancy mapを作成 → BOを用いて総当たりせずに 高スコアなpose を効率よく発見 K(p)は勾配ベースでの最適化が難しい
  9. 実験設定 11 • simulation • robocasa [Nasiriany+, RSS24]上で環境がunseenの5 task •

    baseline • Policy aware: BC w/Nav • Non-policy aware: LeLaN [Hirose+, CoRL24], VLFM [Yokoyama+, ICRA24] • MimicGen [Mandlekar+, CoRL23] 300 episodeでBeTを学習 • real-world • 3つの難易度の異なるタスク • baseline • BC w/Nav, Human expert • 30-50 episodeをテレオペで収集し,diffusion policyを学習 • GPU: RTX 4090 • 実行時間: 3DGS (15min), pose search (6min)
  10. まとめ 15 • 背景 • 固定視点で学習したmanipulation policyをmobile robotにそのまま載せると OODになり失敗しやすい •

    提案 • 3DGSで再構成した環境画像からpolicy に適したbase poseを探索 • 追加データを集めずに既存policyをmobile化 • 結果 • simulationおよび実機の両方で baselineを上回る性能