Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] RAM: Retrieval-Based Affordance ...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
November 15, 2024
Technology
440
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[Journal club] RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
Semantic Machine Intelligence Lab., Keio Univ.
PRO
November 15, 2024
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
36
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
100
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
96
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
88
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
160
A Gentle Introduction to Transformers
keio_smilab
PRO
16
6.7k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
58
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
140
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
200
Other Decks in Technology
See All in Technology
手塩にかけりゃいいってもんじゃない
ming_ayami
0
240
AIソロプレナー時代に2ヶ月で20人増員した事業創造会社の開発組織の話
miyatakoji
0
570
失敗を経て、Harness Engineering で 大切にしたいことを考える / Learning from Failure: What Matters in Harness Engineering
bitkey
PRO
1
290
AIの性能が向上しても未解決な組織の重大問題は何か?/An Unsolved Organizational Problem in the Age of AI
moriyuya
3
610
AI駆動開発が変える、大規模開発の前提 ーHuman in the Loop から Human on the Loop へ / AIE2026
visional_engineering_and_design
30
24k
地球に⽣きるAI —GeoAIと「中間領域」— / AI Living on Earth — GeoAI and the “Intermediate Layer” —
ykiyota
0
270
新規事業を牽引する技術選定 〜フルスタックTypeScript開発の実践事例〜
nullnull
3
380
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
730
LLMと共に進化するプロセスを目指して
ymatsuwitter
12
3.9k
スキルと MCP ツール、責務をどう分けるか? AI が迷わないインターフェース設計の戦略
cdataj
1
920
Dario Amodi『Policy on the AI Exponential』を理解する
nagatsu
0
210
Snowflakeと仲良くなる第一歩
coco_se
4
410
Featured
See All Featured
Joys of Absence: A Defence of Solitary Play
codingconduct
1
390
Thoughts on Productivity
jonyablonski
76
5.2k
How STYLIGHT went responsive
nonsquared
100
6.2k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
Code Review Best Practice
trishagee
74
20k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
Paper Plane
katiecoart
PRO
1
51k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
570
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
140
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
220
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
Transcript
慶應義塾大学 杉浦孔明研究室 名字氏名 RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot
Robotic Manipulation Yuxuan Kuang1,2*, Junjie Ye1*, Haoran Geng2,3*, Jiageng Mao1, Congyue Deng3, Leonidas Guibas3, He Wang2, Yue Wang1 (1University of Southern California, 2Peking University, 3Stanford University) CoRL 2024 (Oral) 慶應義塾大学 杉浦孔明研究室 是方諒介 Kuang, Y., Ye, J, Geng, H., Mao, J., Deng, C., Guibas, J., Wang, H., Wang, Y. "RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation." CoRL 2024.
概要 背景 ✓ 言語指示に基づく,物体・環境・実機に依存 しない汎用的なzero-shotの物体操作 提案 ✓ out-of-domainデータからaffordance memory を構築し,検索
& 3D affordanceへ変換 結果 ✓ シミュレーション・実機実験で既存手法を 上回る成功率 & 多様な下流タスクへ応用 2
背景:物体・環境・実機に依存しない汎用的な物体操作 ◼ 遠隔操作等で大量のexpert demonstrationを収集して訓練 手動のためコストが大きく,十分な実データの収集が困難 ◼ インターネット規模で存在するout-of-domainデータの活用に期待 ☺ YouTube,人間の動画,AI生成の動画,スケッチ,etc
→ ドメインシフトが課題 3 DROID [Khazatsky+, 24] RT-X [O'Neil+, ICRA24] RT-Sketch [Sundaresan+, 24] HOI4D [Liu+, CVPR22]
関連研究:3D affordance予測をzero-shotで扱うことは難しい 4 手法 概要 Where2Act [Mo+, ICCV21] 点群を入力とし,学習ベースでpoint-wiseなactionabilityスコアを予測
depthカメラのノイズによるsim-to-realギャップ MOKA [Liu+, RSS24] VLM (GPT-4V) により,zero-shotで2D affordance (keypoint) を予測 事前に定義されたヒューリスティックな行動に依存 Robo-ABC [Ju+, ECCV24] human-object interaction (HOI) の動画から検索し,zero-shotで2D affordanceを予測 予測は把持点のみであり,3D affordanceを扱えない Where2Act MOKA Robo-ABC
提案手法:Retrieval-based Affordance transfer approach for generalizable zero-shot robotic Manipulation (RAM)
◼ out-of-domainデータから2D affordanceを抽出 → memoryを構築 ◼ 言語指示・観測視点の類似サンプルを検索 → 3D affordanceへ変換して実行 5
affordance memory :3種類のout-of-domainデータから構築 ① Robotデータ :DROID ◼ 動画からエンドエフェクタの軌道を抽出 ② HOIデータ
:HOI4D ◼ 動画から手のkeypointを検出し,軌道を抽出 ③ Customデータ :Google, YouTube, etc ◼ 画像に対し,開始・終了点をアノテーション 6 :動作開始前の静止画像 :タスクのカテゴリ(言語) :contact point :contact後の軌道
階層的なretrieval:3段階で類似サンプルを検索 ① Task Retrieval:指示文をLLMで解釈 ◼ タスクの種類と物体カテゴリを絞る ② Semantic Filtering:CLIPによる類似度計算 ◼
観測画像・指示文の両方で意味的な類似を考慮 ③ Geometrical Retrieval:視点の類似度計算 ◼ 背景:視覚基盤モデルは’orientation’の理解が困難 ◼ Stable Diffusionの特徴マップを用いた, Instance Matching Distance [Zhang+, CVPR24] を算出 7 Telling Left from Right [Zhang+, CVPR24] :ソース画像, :ターゲット画像, :物体名(言語)
2D affordance transfer:3D affordanceへの変換 ① RANSACを用いて を → へ変換 ②
深度マップを用いて → ③ 周辺の点群を切り取り,局所的な形状を把握 ④ 各点の法線ベクトルを推定し,K平均法でクラスタリング ⑤ 法線ベクトルを2Dへ投影し, と最も近い方向を選択 3D affordance獲得 8
定量的結果:シミュレーション・実機実験ともに既存手法を凌駕 ◼ シミュレータ:Isaac Gym [Makoviychuk+, NeurIPS21] ◼ 10カテゴリ70物体を用いて3種類 (Open/Close/Pickup) のタスクを50試行ずつ実施
◼ 実機:Franka Emika robotic arm + Real Sense D415 camera ◼ 考察 ✓ 正確なcontact point予測が必要なopenタスクにおける差が顕著 ✓ *: 2D → 3D変換のため,提案手法の一部を組み込んだことの寄与に留意 9 ① シミュレーション ② 実機
Ablation Study:各retrieval stepの有効性を検証 ◼ 追加の評価指標:Distance to Mask (DTM [Ju+, ECCV24])
→ contact pointに関するGTとのピクセル距離 ◼ 考察 ✓ Geometrical Retrievalの寄与が比較的大きい ✓ データ量50%以降は変化が緩やかなことから,RAMのデータ効率性を示唆 10 ③ retrieval条件の変更 ④ affordance memoryのデータ量を変更
定性的結果 (1/3):非ヒューリスティックかつzero-shotでの物体操作 11 “Open the drawer” “Open the microwave” “Pick
up the bowl” ☺ 既存手法より頑健なaffordance予測
定性的結果 (2/3):one-shot visual imitationへの応用 12 ☺ 人間がティッシュペーパーを取り出す動作をone-shotで模倣 ☺ 視覚基盤モデルの汎用性により,ドメインギャップに頑健
定性的結果 (3/3):LLM/VLMを用いたプランニングと統合可能 ◼ 実機:Unitree B1 robot dog + Unitree Z1
arm + RealSense D415 camera ◼ GPT-4Vによるタスク分解 & プランニング ◼ 例:Pickup_bottle() → move_to(trashcan_position) → release() ◼ Grounded-SAM [Ren+, 24] による対象物体のセグメンテーション 13 “Clear the table”
まとめ 背景 ✓ 言語指示に基づく,物体・環境・実機に依存 しない汎用的なzero-shotの物体操作 提案 ✓ out-of-domainデータからaffordance memory を構築し,検索
& 3D affordanceへ変換 結果 ✓ シミュレーション・実機実験で既存手法を 上回る成功率 & 多様な下流タスクへ応用 14
Appendix:Custom data affordanceの例 ◼ Google, YouTube, etc から収集 & 2D
affordanceアノテーション 15
Appendix:Instance Matching Distance (IMD [Zhang+, CVPR24]) 16 :ソース画像 :ターゲット画像 :ソースインスタンスのマスク
:nearest neighbor :ソース画像の特徴マップ :ターゲット画像の特徴マップ
Appendix:affordance memoryの統計情報 17
Appendix:LLM/VLMとの統合時のプロンプト例 18
Appendix:policy distillationの定量的結果 ◼ 考察 ✓ 提案手法により自動収集したdemonstrationが性能向上に寄与 19
Appendix:cluttered sceneにおける追加実験 ◼ 考察 ✓ 依然として提案手法が既存手法を上回った ✓ 成功率の減少幅は6.7ポイントに留まり,頑健性を示唆 20
Appendix:失敗例 21 扉の面が見えず,直線的に写る視点 把手の位置が影により暗く,視認が困難