Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タス...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 05, 2024
Technology
240
1
Share
[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タスクにおける将来成否予測
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 05, 2024
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
24
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
87
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
75
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
82
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
150
A Gentle Introduction to Transformers
keio_smilab
PRO
14
6.5k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
51
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
130
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
190
Other Decks in Technology
See All in Technology
APIテストとは?
nagix
0
120
AI とサービス・デザイン / AI and Service Design
ks91
PRO
0
180
大規模災害時でも高い信頼性を維持するアプリケーション基盤の実現/nikkei-tech-talk46
nikkei_engineer_recruiting
0
110
20260528_生成AIを専属DSに_Howの次にすべきことを考える
doradora09
PRO
0
220
食べログのサーキットブレーカー導入を振り返って
atpons
1
140
責任あるソフトウェアエンジニアリングの紹介4章・5章 / RSE_Ch4-5
ido_kara_deru
0
350
大規模環境でどのように監視を実現する?
yuobayashi
1
260
Anthropic AIネイティブ・スタートアップ構築のプレイブック を理解する
nagatsu
0
200
Typiaで配信JSONの安全性を構造的に担保する(TSKaigi2026)
righttouch
PRO
1
190
long-running-tasks
cipepser
2
420
『家族アルバム みてね』における インシデント対応との向き合い方 / Approach incident response in Family Album
kohbis
2
230
GitHub Copilot CLI の Rubber Duck 機能を使ってコーディングの品質をあげよう #techbaton_findy
stefafafan
2
1.2k
Featured
See All Featured
Building Applications with DynamoDB
mza
96
7k
Side Projects
sachag
455
43k
Design in an AI World
tapps
1
220
Test your architecture with Archunit
thirion
1
2.2k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
240
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.1k
エンジニアに許された特別な時間の終わり
watany
107
240k
Fireside Chat
paigeccino
42
3.9k
From π to Pie charts
rasagy
0
190
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Claude Code のすすめ
schroneko
67
220k
Transcript
慶應義塾⼤学 神原元就,杉浦孔明 オフライン軌道⽣成による軌道に基づく Open-Vocabulary物体操作タスクにおける将来成否予測
背景:物体操作ではタスク成否判定が重要 「野球ボールを取って⾼い机に置いて」 8x
背景:物体操作ではタスク成否判定が重要 - 3 - フォークの代わりにスプーンを持ってきて 様々なサブタスク 把持中のフォークを他の場所に置く → 引き出しを開ける →
フォークを把持し引き出しに置く → スプーンを引き出しから取る等 タスク実⾏前に⽣成した軌道の適切さを判定できれば効率性・安全性向上 [Driess+, ICML23] [Schmalstieg+, ICRA24]
関連研究: 既存のタスク成否判定機構は実⾏後の判定が中⼼ - 4 - ⼿法 概要 PaLM-E [Driess+, ICML23]
実世界の観測値を⾔語の埋め込み空間に組み込む [Shirasaka+, ICRA24] 失敗を3種類に分類.タスク失敗の際は再計画を実施 REFLECT [Liu+, CoRL23] 事前に定義された物体の状態に基づき成否判定 [Liu+, ICRA24] 将来の状態に関する潜在表現に基づくタスク成否予測 [Shirasaka+, ICRA24] [Liu+, ICRA24]
問題設定: オフライン⽣成された軌道に基づくタスク成否判定 - 5 - • ⼊⼒:指⽰⽂,1⼈称視点画像,エンドエフェクタの軌道 • 出⼒:物体操作に成功する確率の予測値 Success
Failure Status 0.8 0.2 「⽩いボウルから⾚いリンゴを取って」
提案⼿法: オフライン⽣成された軌道に基づくタスク成否予測機構 - 6 - 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory Encoder 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う
Transformer Decoder
Trajectory Encoder: 軌道を埋め込み,画像による条件付け - 7 - ・ ・ ・ CNN
Pooling λ-Rep. Encoder [Goko+, CoRL24] • 前提 軌道は環境の状況に基づき⽣成 される 1⼈称画像と軌道の特徴量の 対応づけが有効 • 獲得した特徴量はCross- Attention機構により⾔語特徴量 とアラインメント
定量的結果:ベースライン⼿法を精度において上回った - 8 - ▪ SP-RT-1データセット(13Kエピソード,[Goko+, CoRL24])において評価 ▪ w/o CNN:
Trajectory EncoderのCNNをLinearに変更 モデル 精度 [%] 齋藤ら [齋藤+, JSAI24] 74.9±0.79 提案⼿法 w/o CNN 83.2±0.48 提案⼿法 83.4±0.65 “pick orange can from bottom drawer and place on counter” Trajectory Encoderの構造の有効性も確認
定性的結果 (1/2): タスクに対して適切な軌道であることを理解 - 9 - “Place rxbar chocolate into
middle drawer” ▪ チョコレート菓⼦を適切に引き出しに格納 J 適切にタスクの成功を予測
定性的結果 (2/2):物体の位置関係について適切に考慮 - 10 - ▪ オレンジ⽸を動かそうとしている & 倒してしまった “Move
green rice chip bag near orange can” J 適切にタスクの失敗を予測
まとめ - 11 - ▪ 物体操作における,エンドエフェクタの軌道に基づくタスク成否予測 ▪ 新規性 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory
Encoderの導⼊ 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う Transformer Decoder ▪ 精度においてベースライン⼿法を上回った 10x