Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タス...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 05, 2024
Technology
1
140
[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タスクにおける将来成否予測
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 05, 2024
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
Will multimodal language processing change the world?
keio_smilab
PRO
3
350
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
keio_smilab
PRO
0
70
[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement
keio_smilab
PRO
0
67
[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot
keio_smilab
PRO
0
68
[Journal club] RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
keio_smilab
PRO
1
87
[Journal club] Simplified State Space Layers for Sequence Modeling
keio_smilab
PRO
0
65
[Journal club] Detecting and Preventing Hallucinations in Large Vision Language Models
keio_smilab
PRO
1
95
[IROS24] Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models
keio_smilab
PRO
0
66
[IROS24] Learning-To-Rank Approach for Identifying Everyday Objects Using a Physical-World Search Engine
keio_smilab
PRO
0
120
Other Decks in Technology
See All in Technology
re:Invent をおうちで楽しんでみた ~CloudWatch のオブザーバビリティ機能がスゴい!/ Enjoyed AWS re:Invent from Home and CloudWatch Observability Feature is Amazing!
yuj1osm
0
130
組織に自動テストを書く文化を根付かせる戦略(2024冬版) / Building Automated Test Culture 2024 Winter Edition
twada
PRO
17
4.5k
WACATE2024冬セッション資料(ユーザビリティ)
scarletplover
0
210
非機能品質を作り込むための実践アーキテクチャ
knih
5
1.4k
10個のフィルタをAXI4-Streamでつなげてみた
marsee101
0
170
サイバー攻撃を想定したセキュリティガイドライン 策定とASM及びCNAPPの活用方法
syoshie
3
1.3k
多領域インシデントマネジメントへの挑戦:ハードウェアとソフトウェアの融合が生む課題/Challenge to multidisciplinary incident management: Issues created by the fusion of hardware and software
bitkey
PRO
2
110
あの日俺達が夢見たサーバレスアーキテクチャ/the-serverless-architecture-we-dreamed-of
tomoki10
0
460
Oracle Cloud Infrastructure:2024年12月度サービス・アップデート
oracle4engineer
PRO
0
190
サイボウズフロントエンドエキスパートチームについて / FrontendExpert Team
cybozuinsideout
PRO
5
38k
PHPからGoへのマイグレーション for DMMアフィリエイト
yabakokobayashi
1
170
DUSt3R, MASt3R, MASt3R-SfM にみる3D基盤モデル
spatial_ai_network
2
160
Featured
See All Featured
Imperfection Machines: The Place of Print at Facebook
scottboms
266
13k
Designing Experiences People Love
moore
138
23k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
A Tale of Four Properties
chriscoyier
157
23k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
28
900
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Rails Girls Zürich Keynote
gr2m
94
13k
Transcript
慶應義塾⼤学 神原元就,杉浦孔明 オフライン軌道⽣成による軌道に基づく Open-Vocabulary物体操作タスクにおける将来成否予測
背景:物体操作ではタスク成否判定が重要 「野球ボールを取って⾼い机に置いて」 8x
背景:物体操作ではタスク成否判定が重要 - 3 - フォークの代わりにスプーンを持ってきて 様々なサブタスク 把持中のフォークを他の場所に置く → 引き出しを開ける →
フォークを把持し引き出しに置く → スプーンを引き出しから取る等 タスク実⾏前に⽣成した軌道の適切さを判定できれば効率性・安全性向上 [Driess+, ICML23] [Schmalstieg+, ICRA24]
関連研究: 既存のタスク成否判定機構は実⾏後の判定が中⼼ - 4 - ⼿法 概要 PaLM-E [Driess+, ICML23]
実世界の観測値を⾔語の埋め込み空間に組み込む [Shirasaka+, ICRA24] 失敗を3種類に分類.タスク失敗の際は再計画を実施 REFLECT [Liu+, CoRL23] 事前に定義された物体の状態に基づき成否判定 [Liu+, ICRA24] 将来の状態に関する潜在表現に基づくタスク成否予測 [Shirasaka+, ICRA24] [Liu+, ICRA24]
問題設定: オフライン⽣成された軌道に基づくタスク成否判定 - 5 - • ⼊⼒:指⽰⽂,1⼈称視点画像,エンドエフェクタの軌道 • 出⼒:物体操作に成功する確率の予測値 Success
Failure Status 0.8 0.2 「⽩いボウルから⾚いリンゴを取って」
提案⼿法: オフライン⽣成された軌道に基づくタスク成否予測機構 - 6 - 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory Encoder 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う
Transformer Decoder
Trajectory Encoder: 軌道を埋め込み,画像による条件付け - 7 - ・ ・ ・ CNN
Pooling λ-Rep. Encoder [Goko+, CoRL24] • 前提 軌道は環境の状況に基づき⽣成 される 1⼈称画像と軌道の特徴量の 対応づけが有効 • 獲得した特徴量はCross- Attention機構により⾔語特徴量 とアラインメント
定量的結果:ベースライン⼿法を精度において上回った - 8 - ▪ SP-RT-1データセット(13Kエピソード,[Goko+, CoRL24])において評価 ▪ w/o CNN:
Trajectory EncoderのCNNをLinearに変更 モデル 精度 [%] 齋藤ら [齋藤+, JSAI24] 74.9±0.79 提案⼿法 w/o CNN 83.2±0.48 提案⼿法 83.4±0.65 “pick orange can from bottom drawer and place on counter” Trajectory Encoderの構造の有効性も確認
定性的結果 (1/2): タスクに対して適切な軌道であることを理解 - 9 - “Place rxbar chocolate into
middle drawer” ▪ チョコレート菓⼦を適切に引き出しに格納 J 適切にタスクの成功を予測
定性的結果 (2/2):物体の位置関係について適切に考慮 - 10 - ▪ オレンジ⽸を動かそうとしている & 倒してしまった “Move
green rice chip bag near orange can” J 適切にタスクの失敗を予測
まとめ - 11 - ▪ 物体操作における,エンドエフェクタの軌道に基づくタスク成否予測 ▪ 新規性 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory
Encoderの導⼊ 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う Transformer Decoder ▪ 精度においてベースライン⼿法を上回った 10x