[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タスクにおける将来成否予測

慶應義塾⼤学神原元就，杉浦孔明オフライン軌道⽣成による軌道に基づく Open-Vocabulary物体操作タスクにおける将来成否予測

背景：物体操作ではタスク成否判定が重要「野球ボールを取って⾼い机に置いて」 8x

背景：物体操作ではタスク成否判定が重要 - 3 - フォークの代わりにスプーンを持ってきて様々なサブタスク把持中のフォークを他の場所に置く → 引き出しを開ける →
フォークを把持し引き出しに置く → スプーンを引き出しから取る等タスク実⾏前に⽣成した軌道の適切さを判定できれば効率性・安全性向上 [Driess+, ICML23] [Schmalstieg+, ICRA24]

関連研究：既存のタスク成否判定機構は実⾏後の判定が中⼼ - 4 - ⼿法概要 PaLM-E [Driess+, ICML23]
実世界の観測値を⾔語の埋め込み空間に組み込む [Shirasaka+, ICRA24] 失敗を3種類に分類．タスク失敗の際は再計画を実施 REFLECT [Liu+, CoRL23] 事前に定義された物体の状態に基づき成否判定 [Liu+, ICRA24] 将来の状態に関する潜在表現に基づくタスク成否予測 [Shirasaka+, ICRA24] [Liu+, ICRA24]

問題設定：オフライン⽣成された軌道に基づくタスク成否判定 - 5 - • ⼊⼒：指⽰⽂，1⼈称視点画像，エンドエフェクタの軌道 • 出⼒：物体操作に成功する確率の予測値 Success
Failure Status 0.8 0.2 「⽩いボウルから⾚いリンゴを取って」

提案⼿法：オフライン⽣成された軌道に基づくタスク成否予測機構 - 6 - 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory Encoder 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う
Transformer Decoder

Trajectory Encoder: 軌道を埋め込み，画像による条件付け - 7 - ・・・ CNN
Pooling λ-Rep. Encoder [Goko+, CoRL24] • 前提軌道は環境の状況に基づき⽣成される 1⼈称画像と軌道の特徴量の対応づけが有効 • 獲得した特徴量はCross- Attention機構により⾔語特徴量とアラインメント

定量的結果：ベースライン⼿法を精度において上回った - 8 - ▪ SP-RT-1データセット(13Kエピソード，[Goko+, CoRL24])において評価 ▪ w/o CNN:
Trajectory EncoderのCNNをLinearに変更モデル精度 [%] 齋藤ら [齋藤+, JSAI24] 74.9±0.79 提案⼿法 w/o CNN 83.2±0.48 提案⼿法 83.4±0.65 “pick orange can from bottom drawer and place on counter” Trajectory Encoderの構造の有効性も確認

定性的結果 (1/2)：タスクに対して適切な軌道であることを理解 - 9 - “Place rxbar chocolate into
middle drawer” ▪ チョコレート菓⼦を適切に引き出しに格納 J 適切にタスクの成功を予測

定性的結果 (2/2)：物体の位置関係について適切に考慮 - 10 - ▪ オレンジ⽸を動かそうとしている & 倒してしまった “Move
green rice chip bag near orange can” J 適切にタスクの失敗を予測

まとめ - 11 - ▪ 物体操作における，エンドエフェクタの軌道に基づくタスク成否予測 ▪ 新規性 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory
Encoderの導⼊ 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う Transformer Decoder ▪ 精度においてベースライン⼿法を上回った 10x

[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タス...

[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タスクにおける将来成否予測

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾⼤学神原元就，杉浦孔明オフライン軌道⽣成による軌道に基づく Open-Vocabulary物体操作タスクにおける将来成否予測

背景：物体操作ではタスク成否判定が重要「野球ボールを取って⾼い机に置いて」 8x

背景：物体操作ではタスク成否判定が重要 - 3 - フォークの代わりにスプーンを持ってきて様々なサブタスク把持中のフォークを他の場所に置く → 引き出しを開ける →

関連研究：既存のタスク成否判定機構は実⾏後の判定が中⼼ - 4 - ⼿法概要 PaLM-E [Driess+, ICML23]

問題設定：オフライン⽣成された軌道に基づくタスク成否判定 - 5 - • ⼊⼒：指⽰⽂，1⼈称視点画像，エンドエフェクタの軌道 • 出⼒：物体操作に成功する確率の予測値 Success

提案⼿法：オフライン⽣成された軌道に基づくタスク成否予測機構 - 6 - 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory Encoder 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う

Trajectory Encoder: 軌道を埋め込み，画像による条件付け - 7 - ・・・ CNN

定量的結果：ベースライン⼿法を精度において上回った - 8 - ▪ SP-RT-1データセット(13Kエピソード，[Goko+, CoRL24])において評価 ▪ w/o CNN:

定性的結果 (1/2)：タスクに対して適切な軌道であることを理解 - 9 - “Place rxbar chocolate into

定性的結果 (2/2)：物体の位置関係について適切に考慮 - 10 - ▪ オレンジ⽸を動かそうとしている & 倒してしまった “Move

まとめ - 11 - ▪ 物体操作における，エンドエフェクタの軌道に基づくタスク成否予測 ▪ 新規性 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory