Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RSJ2024「基盤モデルの実ロボット応用」チュートリアルB(ロボット基盤モデル)
Search
Tatsuya Matsushima
September 06, 2024
Technology
0
100
RSJ2024「基盤モデルの実ロボット応用」チュートリアルB(ロボット基盤モデル)
Tatsuya Matsushima
September 06, 2024
Tweet
Share
More Decks by Tatsuya Matsushima
See All by Tatsuya Matsushima
RSJ2023「基盤モデルの実ロボット応用」チュートリアル2(実ロボット用の基盤モデルを作って活用する方法)
tmats
2
1.3k
20201102RLArch.pdf
tmats
0
160
第32回 強化学習アーキテクチャ勉強会 状態表現学習と世界モデルの最近の研究,および深層生成モデルライブラリPixyzの紹介 #rlarch
tmats
6
2.9k
Other Decks in Technology
See All in Technology
プロダクトエンジニアが活躍する環境を作りたくて 事業責任者になった話 ~プロダクトエンジニアの行き着く先~
gimupop
1
460
顧客が本当に必要だったもの - パフォーマンス改善編 / Make what is needed
soudai
24
6.7k
Autify Company Deck
autifyhq
1
39k
来年もre:Invent2024 に行きたいあなたへ - “集中”と“つながり”で楽しむ -
ny7760
0
460
Product Engineer Night #6プロダクトエンジニアを育む仕組み・施策
hacomono
PRO
1
460
Figma Dev Modeで進化するデザインとエンジニアリングの協働 / figma-with-engineering
cyberagentdevelopers
PRO
1
430
わたしとトラックポイント / TrackPoint tips
masahirokawahara
1
240
LeSSに潜む「隠れWF病」とその処方箋
lycorptech_jp
PRO
2
120
IaC運用を楽にするためにCDK Pipelinesを導入したけど、思い通りにいかなかった話
smt7174
1
110
ユーザーの購買行動モデリングとその分析 / dsc-purchase-analysis
cyberagentdevelopers
PRO
2
100
visionOSでの空間表現実装とImmersive Video表示について / ai-immersive-visionos
cyberagentdevelopers
PRO
1
110
カメラを用いた店内計測におけるオプトインの仕組みの実現 / ai-optin-camera
cyberagentdevelopers
PRO
1
120
Featured
See All Featured
Writing Fast Ruby
sferik
626
61k
The Pragmatic Product Professional
lauravandoore
31
6.3k
GitHub's CSS Performance
jonrohan
1030
460k
A Modern Web Designer's Workflow
chriscoyier
692
190k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
42
9.2k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
27
1.9k
Practical Orchestrator
shlominoach
186
10k
Intergalactic Javascript Robots from Outer Space
tanoku
268
27k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.1k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
Designing on Purpose - Digital PM Summit 2013
jponch
115
6.9k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
126
18k
Transcript
基盤モデルの実ロボット応用 チュートリアルB 第42回 日本ロボット学会学術講演会 OS3 基盤モデルの実ロボット応用(1) 松嶋 達也1 宮澤 和貴2
河原塚 健人1 1東京大学 2大阪大学 2024/09/06 09:12-09:24 @大阪工業大学梅田キャンパス
前回(RSJ2023)までのあらすじ 2 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 3 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 4 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 5 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 6 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
RSJ2023以降のロボット基盤モデル関連の話題 7 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
RSJ2023以降のロボット基盤モデル関連の話題 8 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
Open X-Embodiment(データセット)とRT-X(モデル) 9 Googleと世界21研究機関がオフラインのロボットデータセットを公開(OXE) • 22種類のロボット,527 skills (160,266 tasks),1M+エピソード •
日本からも1機関3研究室が参加 OXEでRT-1/RT-2のモデルを学習(RT-X) • ロボットのハードウェアに(ある程度)汎化するモデルが得られる • 個別のデータで学習したRT-1/2よりも良い性能 ロボット制御でも事前学習モデルとそのチューニングの有効性を示唆 • ICRA2024 Best Conference Paper https://robotics-transformer-x.github.io/ データ一覧のスプレッドシートが便利 https://docs.google.com/spreadsheets/d/1rPBD7 7tk60AEIGZrGSODwyyzs5FgCU9Uz3h- 3_t2A9g/edit?gid=0#gid=0
DROID:特定のロボットでの大規模追加データセット 10 ロボットやカメラの条件を合わせて収録したOXE形式でのデータセット • 7.6kエピソード,350時間,564シーン 86タスクの遠隔操作データ • OXEより多種類の動作・多様な物体 • OXEと混ぜて学習に利用可能
• 混ぜて学習した場合,外乱へのロバスト性が向上 https://droid-dataset.github.io/
Octo:OXEを用いたオープンソースなモデル 11 OXEの800kエピソードのデータで学習したtransformerベースの方策モデル • 複数の入力形式に対応し,事前学習時とは異なる入出力形式のデータで finetuning可能 • Transformerが出力するaction tokenをdiffusion policyで行動空間に変換
• Small:27Mパラメータ,base:93Mパラメータ • 学習済みの重みも公開(finetuning可能) DL輪読会: https://www.docswell.com/s/DeepLearning2023/54Q16Q-2024-02-02-134227 https://octo-models.github.io/
OpenVLA:VLMをfine-tuningして学習した方策モデル 12 7Bパラメータの視覚言語モデル(VLM)をfine-tuning(RT-2に近い方法) • OXEから970kエピソードのデータを利用 • 画像はDinoV2とSigLIPを使いtokenに • LLMとしてLlama2(7B)を利用 •
Actionはbinに区切ってtokenize • 注:新しい入出力形式への対応は未報告 https://openvla.github.io/
HSRT-X:コミュニティを利用したロボット基盤モデル構築 13 モバイルマニピュレータHSRを用いたロボット制御のend-to-endモデルを ユーザコミュニティと連携して構築 • HSRはiHR研究専門委員会のもと国内30拠点以上で利用 • 共通PFとしてHSRを活用して,大規模データを収集し 大規模E2E制御方策を学習,コミュニティ資産として活用 •
これまでに6拠点・100時間程度の データセットを収集(14,255エピソード) RSJ2024 OS「インテリジェントホームロボティクス」で発表済(水曜日)
ロボット基盤モデルは文脈内学習可能か? 14 基盤モデル(とくにLLM)の特徴の一つは文脈内学習(in-context learning) LLM 大規模言語モデル講座 2023コンテンツ 公開ページ https://weblab.t.u-tokyo.ac.jp/llm_contents/
ロボット基盤モデルは文脈内学習可能か? 15 LLM 大規模言語モデル講座 2023コンテンツ 公開ページ https://weblab.t.u-tokyo.ac.jp/llm_contents/
ICRT:文脈内学習可能なロボット基盤モデル 16 ロボット基盤モデルも文脈内学習可能という報告がある(8/28公開) • タスクのデモをプロンプトとして与え設定の違う同じタスクを解く • 状態・行動のトークン列の次トークン予測問題として学習 • Llama2(7B)のモデルアーキテクチャを採用 •
DROIDから2kエピソードのデータを利用 注:これまでも問題設定上はFew-shot模倣学習や メタ模倣学習として研究されていた https://icrt.dev/
RSJ2023以降のロボット基盤モデル関連の話題 17 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
比較的簡単・安価にデータを収集するシステムの提案 18 ALOHA・Mobile ALOHA • Stanfordが開発した双腕遠隔操作環境 • リーダ・フォロワ2台ずつのロボットを利用し姿勢を同期 • (まだ見にいけてないのですが)RSJでも8Fの機器展示ブースに実機があるそうです
• モバイルマニピュレータ版のMobile ALOHAもある • OXEにALOHA・Mobile ALOHAのデータ有 https://tonyzhaozh.github.io/aloha/ https://mobile-aloha.github.io/
比較的簡単・安価にデータを収集するシステムの提案 19 GELLO • フォロワをダウンスケールしたリーダで姿勢を制御して遠隔操作 • リーダ側を3Dプリントした部材と市販のモータ(dynamixel)で作成 • ALOHAよりも安価にリーダフォロワの遠隔操作システムを作れる •
複数種類のフォロワに対応 • 2024/9/6時点でUR,Panda,xArmのモデルが公開されている https://wuphilipp.github.io/gello_site/ 松尾研でも学生が作っていました(xArm版)
比較的簡単・安価にデータを収集するシステムの提案 20 UMI • ハンド型のデータ収集装置 • ハンドは3Dプリント可能,カメラはGoProを利用 • 画像ベースの自己位置推定モデル (ORB-SLAM3)でハンドの姿勢を算出
https://umi-gripper.github.io/
比較的簡単・安価にデータを収集するシステムの提案 21 日本でもいろいろ出現 例)日立の装置@ICRA2024 • 双腕+台車 • 冗長自由度で学習仕様 • ぬるぬる遠隔操作できとても良い
(個人の感想) 例)松尾研でも市販品を組み合わせ作成 • アールティのCraneXを利用 • 4台使って双腕遠隔操作可能 • ツイートに海外からのお問合せ有 https://x.com/micoolcho/status/1790211170248560741
RSJ2023以降のロボット基盤モデル関連の話題 22 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
Transformerベースのモデル 23 ACT(Action Chunking Transformer)ベースの実装が多い • Encoder-Decoder型の Transformerを用いた方策 • 将来複数ステップの行動を出力し
過去の出力と時間方向に アンサンブルして行動を決定 • ACTではTransformerが直接行動空間を出力 • 連続値ベクトルを出力 https://tonyzhaozh.github.io/aloha/
Transformerベースのモデル 24 Transformerベースのモデルでは行動空間を離散化するものも多い • うまくトークン化すれば多峰性を表現できる(と期待) 例)RT-2:行動空間をbinに区切ってトークン化 例)BeT:行動空間をk-meansでクラスタリングしてトークン化 例)VQ-BeT:階層VQ-VAEの利用(ICML2024) • 行動空間を階層VQ-VAEで離散化しておき,
方策はどのコードかとそのコードからの 差分を出力するように模倣学習
拡散モデルベースのモデル 25 Diffusion Policy(RSS2023) • 行動空間の多峰性を表現するために拡散モデルを用いた方策学習 • Denoisingの過程でDNNの推論を何度も繰り返すため推論速度が遅い https://diffusion-policy.cs.columbia.edu/
拡散モデルベースのモデル 26 Diffusion Policyの推論の高速化に関する研究も出ている 例)Consitency Policy(RSS2024) • 拡散モデルの高速化手法Consistency Trajectory Model(CTM)を用いた方策
• サンプリング手法の工夫 https://consistency-policy.github.io/
まとめ・議論 27 ここ1年でクロスドメインのデータセットが整備され, ロボット・タスク・環境間での汎化性・転移可能性が検証されてきた • ロボット間のゼロショット性能はそこまで高くないのでfine-tuning前提 • 言語指示や画像に関する表現などの事前知識を獲得した事前学習モデルとして利用 • タスク間では文脈内学習も可能という報告も
事前学習モデルと行動空間や入力が異なっていても適応する方法が提案 • Octoではヘッドを取り替えてfine-tuningする データとモデルをスケールさせて良い事前学習モデルを作っておき, 使いたい設定(ロボット・環境・タスク)で少数のデータを集め適応する という使い方になるのでは • 現在のLLM・VLMの使われ方とほぼ同じ 多様な事前学習用のデータを安価に大量に集めて事前学習モデルを作り, デプロイしながら性能を高めていくというシステム設計自体が大事になるはず • ロボットの業界自体が垂直統合から水平統合的に変わる可能性(?)
宣伝:「ロボットx基盤モデル」のサーベイ論文が出ました 28 Real-World Robot Applications of Foundation Models: A Review
• Kento Kawaharazuka, Tatsuya Matsushima, Andrew Gambardella, Jiaxian Guo, Chris Paxton1, Andy Zeng2 • 1Ex-Meta(現:Hello Robotics),2Ex-Google Brain • Advanced Robotics特集号へ掲載予定(採録決定済) • https://arxiv.org/abs/2402.05741