Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] IFOR: Iterative Flow Minimization for Robotic Object Rearrangement

[Journal club] IFOR: Iterative Flow Minimization for Robotic Object Rearrangement

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 是方諒介 IFOR: Iterative Flow Minimization for Robotic Object

    Rearrangement Ankit Goyal1,2, Arsalan Mousavian1, Chris Paxton1, Yu-Wei Chao1, Brian Okorn1,3, Jia Deng2, Dieter Fox1 (1NVIDIA, 2Princeton University, 3Carnegie Mellon University) CVPR 2022 慶應義塾大学 杉浦孔明研究室 是方諒介 Goyal, A., Mousavian, A., Paxton, C., Chao, Y., Okorn, B., Deng, J., Fox, D. "IFOR: Iterative Flow Minimization for Robotic Object Rearrangement." CVPR 2022.
  2. 概要 背景 ✓ rearrangementタスクは,日常動作を行うembodied agentに不可欠なスキル ✓ ゴール状態が画像で与えられる設定で,物体の角度まで考慮できる手法は少数 提案 ✓ optical

    flow推定を応用し,物体の並進・回転に対応 ✓ 実環境へのゼロショット転移が可能な合成データセット 結果 ✓ 同設定のrearrangementタスクにおいて,SOTAを上回った 2
  3. 関連研究:ゴール状態の与え方を多様に定義 4 手法 概要 NeRP [Qureshi+, RSS21] ・ゴール状態:RGB-D画像 → 本研究と同様

     物体の角度を合わせることはできない CLIPort [Shridhar+, CoRL21] ・ゴール状態:自然言語 ・言語条件付き模倣学習による物体配置 VRR [Weihs+, CVPR21] ・ゴール状態:幾何的な状態表現 VRR CLIPort NeRP 
  4. 提案手法: Iterative Flow Minimization for Unseen Object Rearrangement (IFOR) ◼

    RGB-D画像によるゴール状態に向けて,optical flow推定をもとに物体操作 ◼ 物体の「位置」と「角度」の両方を合わせることが可能 ◼ シミュレーションデータセットから実環境へのゼロショット転移を実現 5
  5. optical flow推定 (1/2):rearrangementタスク向けに問題設定を変更 6 RAFT ◼ optical flow:時間的な連続画像間の画素対応関係をベクトルで表現  一般的に,動画のフレーム間のような微小な変化を想定

    ◼ RAFT [Teed+, ECCV20]:全画素間の比較によりoptical flowを推定 ☺ 構造はそのまま,物体変化の大きなrearrangementタスク向けに訓練可能
  6. transformation optimization:剛体変換後の誤差を最小化 ◼ 深度画像 + カメラの内部パラメータ → 各ピクセルを3次元マッピング ◼ optical

    flow + セグメンテーション → 誤差を最小化するようにrotation , translation を推定 9 :現在の状態における 物体の3次元座標 :ゴール状態における 物体の3次元座標
  7. 実験設定:実機・シミュレーションの両環境で評価 ① 実機:SOTAであるNeRP [Qureshi+, RSS21] と比較 ◼ 2-5個の未知物体を含む6シーンを使用 ◼ ロボット:Franka

    EMIKA Panda Robot ◼ 評価指標:ユーザによる採点 ◼ ゴール状態との差分を正確に測定できないため ② シミュレーション:ablation study ◼ 1-9個の物体を含む200シーンを使用 ◼ 評価指標 ◼ Median rotation error [°] ◼ Median position error [cm] ◼ 位置および角度の差分が閾値未満である(= rearrangementに成功している)物体の割合 [%] 11 https://www.directindustry.com/ja/prod/franka-emika/product-187686-1906234.html
  8. まとめ 背景 ✓ rearrangementタスクは,日常動作を行うembodied agentに不可欠なスキル ✓ ゴール状態が画像で与えられる設定で,物体の角度まで考慮できる手法は少数 提案 ✓ optical

    flow推定を応用し,物体の並進・回転に対応 ✓ 実環境へのゼロショット転移が可能な合成データセット 結果 ✓ 同設定のrearrangementタスクにおいて,SOTAを上回った 15