Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RSJ2024「基盤モデルの実ロボット応用」チュートリアルB(ロボット基盤モデル)
Search
Tatsuya Matsushima
September 06, 2024
Technology
0
670
RSJ2024「基盤モデルの実ロボット応用」チュートリアルB(ロボット基盤モデル)
Tatsuya Matsushima
September 06, 2024
Tweet
Share
More Decks by Tatsuya Matsushima
See All by Tatsuya Matsushima
RSJ2023「基盤モデルの実ロボット応用」チュートリアル2(実ロボット用の基盤モデルを作って活用する方法)
tmats
2
1.6k
20201102RLArch.pdf
tmats
0
170
第32回 強化学習アーキテクチャ勉強会 状態表現学習と世界モデルの最近の研究,および深層生成モデルライブラリPixyzの紹介 #rlarch
tmats
6
3.1k
Other Decks in Technology
See All in Technology
テストを実行してSorbetのsigを書こう!
sansantech
PRO
1
100
Eval-Centric AI: Agent 開発におけるベストプラクティスの探求
asei
0
120
【OptimizationNight】数理最適化のラストワンマイルとしてのUIUX
brainpadpr
2
480
形式手法特論:位相空間としての並行プログラミング #kernelvm / Kernel VM Study Tokyo 18th
ytaka23
3
1.3k
Claude CodeでKiroの仕様駆動開発を実現させるには...
gotalab555
3
1k
Claude Codeが働くAI中心の業務システム構築の挑戦―AIエージェント中心の働き方を目指して
os1ma
9
2.6k
2025新卒研修・HTML/CSS #弁護士ドットコム
bengo4com
3
13k
生成AIによるデータサイエンスの変革
taka_aki
0
3k
Instant Apps Eulogy
cyrilmottier
1
110
家族の思い出を形にする 〜 1秒動画の生成を支えるインフラアーキテクチャ
ojima_h
3
1.1k
Amazon Q Developerを活用したアーキテクチャのリファクタリング
k1nakayama
2
210
AI時代の大規模データ活用とセキュリティ戦略
ken5scal
0
110
Featured
See All Featured
Faster Mobile Websites
deanohume
308
31k
Optimizing for Happiness
mojombo
379
70k
Facilitating Awesome Meetings
lara
54
6.5k
BBQ
matthewcrist
89
9.8k
Writing Fast Ruby
sferik
628
62k
Build The Right Thing And Hit Your Dates
maggiecrowley
37
2.8k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Testing 201, or: Great Expectations
jmmastey
45
7.6k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
131
19k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Agile that works and the tools we love
rasmusluckow
329
21k
Transcript
基盤モデルの実ロボット応用 チュートリアルB 第42回 日本ロボット学会学術講演会 OS3 基盤モデルの実ロボット応用(1) 松嶋 達也1 宮澤 和貴2
河原塚 健人1 1東京大学 2大阪大学 2024/09/06 09:12-09:24 @大阪工業大学梅田キャンパス
前回(RSJ2023)までのあらすじ 2 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 3 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 4 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 5 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 6 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
RSJ2023以降のロボット基盤モデル関連の話題 7 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
RSJ2023以降のロボット基盤モデル関連の話題 8 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
Open X-Embodiment(データセット)とRT-X(モデル) 9 Googleと世界21研究機関がオフラインのロボットデータセットを公開(OXE) • 22種類のロボット,527 skills (160,266 tasks),1M+エピソード •
日本からも1機関3研究室が参加 OXEでRT-1/RT-2のモデルを学習(RT-X) • ロボットのハードウェアに(ある程度)汎化するモデルが得られる • 個別のデータで学習したRT-1/2よりも良い性能 ロボット制御でも事前学習モデルとそのチューニングの有効性を示唆 • ICRA2024 Best Conference Paper https://robotics-transformer-x.github.io/ データ一覧のスプレッドシートが便利 https://docs.google.com/spreadsheets/d/1rPBD7 7tk60AEIGZrGSODwyyzs5FgCU9Uz3h- 3_t2A9g/edit?gid=0#gid=0
DROID:特定のロボットでの大規模追加データセット 10 ロボットやカメラの条件を合わせて収録したOXE形式でのデータセット • 7.6kエピソード,350時間,564シーン 86タスクの遠隔操作データ • OXEより多種類の動作・多様な物体 • OXEと混ぜて学習に利用可能
• 混ぜて学習した場合,外乱へのロバスト性が向上 https://droid-dataset.github.io/
Octo:OXEを用いたオープンソースなモデル 11 OXEの800kエピソードのデータで学習したtransformerベースの方策モデル • 複数の入力形式に対応し,事前学習時とは異なる入出力形式のデータで finetuning可能 • Transformerが出力するaction tokenをdiffusion policyで行動空間に変換
• Small:27Mパラメータ,base:93Mパラメータ • 学習済みの重みも公開(finetuning可能) DL輪読会: https://www.docswell.com/s/DeepLearning2023/54Q16Q-2024-02-02-134227 https://octo-models.github.io/
OpenVLA:VLMをfine-tuningして学習した方策モデル 12 7Bパラメータの視覚言語モデル(VLM)をfine-tuning(RT-2に近い方法) • OXEから970kエピソードのデータを利用 • 画像はDinoV2とSigLIPを使いtokenに • LLMとしてLlama2(7B)を利用 •
Actionはbinに区切ってtokenize • 注:新しい入出力形式への対応は未報告 https://openvla.github.io/
HSRT-X:コミュニティを利用したロボット基盤モデル構築 13 モバイルマニピュレータHSRを用いたロボット制御のend-to-endモデルを ユーザコミュニティと連携して構築 • HSRはiHR研究専門委員会のもと国内30拠点以上で利用 • 共通PFとしてHSRを活用して,大規模データを収集し 大規模E2E制御方策を学習,コミュニティ資産として活用 •
これまでに6拠点・100時間程度の データセットを収集(14,255エピソード) RSJ2024 OS「インテリジェントホームロボティクス」で発表済(水曜日)
ロボット基盤モデルは文脈内学習可能か? 14 基盤モデル(とくにLLM)の特徴の一つは文脈内学習(in-context learning) LLM 大規模言語モデル講座 2023コンテンツ 公開ページ https://weblab.t.u-tokyo.ac.jp/llm_contents/
ロボット基盤モデルは文脈内学習可能か? 15 LLM 大規模言語モデル講座 2023コンテンツ 公開ページ https://weblab.t.u-tokyo.ac.jp/llm_contents/
ICRT:文脈内学習可能なロボット基盤モデル 16 ロボット基盤モデルも文脈内学習可能という報告がある(8/28公開) • タスクのデモをプロンプトとして与え設定の違う同じタスクを解く • 状態・行動のトークン列の次トークン予測問題として学習 • Llama2(7B)のモデルアーキテクチャを採用 •
DROIDから2kエピソードのデータを利用 注:これまでも問題設定上はFew-shot模倣学習や メタ模倣学習として研究されていた https://icrt.dev/
RSJ2023以降のロボット基盤モデル関連の話題 17 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
比較的簡単・安価にデータを収集するシステムの提案 18 ALOHA・Mobile ALOHA • Stanfordが開発した双腕遠隔操作環境 • リーダ・フォロワ2台ずつのロボットを利用し姿勢を同期 • (まだ見にいけてないのですが)RSJでも8Fの機器展示ブースに実機があるそうです
• モバイルマニピュレータ版のMobile ALOHAもある • OXEにALOHA・Mobile ALOHAのデータ有 https://tonyzhaozh.github.io/aloha/ https://mobile-aloha.github.io/
比較的簡単・安価にデータを収集するシステムの提案 19 GELLO • フォロワをダウンスケールしたリーダで姿勢を制御して遠隔操作 • リーダ側を3Dプリントした部材と市販のモータ(dynamixel)で作成 • ALOHAよりも安価にリーダフォロワの遠隔操作システムを作れる •
複数種類のフォロワに対応 • 2024/9/6時点でUR,Panda,xArmのモデルが公開されている https://wuphilipp.github.io/gello_site/ 松尾研でも学生が作っていました(xArm版)
比較的簡単・安価にデータを収集するシステムの提案 20 UMI • ハンド型のデータ収集装置 • ハンドは3Dプリント可能,カメラはGoProを利用 • 画像ベースの自己位置推定モデル (ORB-SLAM3)でハンドの姿勢を算出
https://umi-gripper.github.io/
比較的簡単・安価にデータを収集するシステムの提案 21 日本でもいろいろ出現 例)日立の装置@ICRA2024 • 双腕+台車 • 冗長自由度で学習仕様 • ぬるぬる遠隔操作できとても良い
(個人の感想) 例)松尾研でも市販品を組み合わせ作成 • アールティのCraneXを利用 • 4台使って双腕遠隔操作可能 • ツイートに海外からのお問合せ有 https://x.com/micoolcho/status/1790211170248560741
RSJ2023以降のロボット基盤モデル関連の話題 22 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
Transformerベースのモデル 23 ACT(Action Chunking Transformer)ベースの実装が多い • Encoder-Decoder型の Transformerを用いた方策 • 将来複数ステップの行動を出力し
過去の出力と時間方向に アンサンブルして行動を決定 • ACTではTransformerが直接行動空間を出力 • 連続値ベクトルを出力 https://tonyzhaozh.github.io/aloha/
Transformerベースのモデル 24 Transformerベースのモデルでは行動空間を離散化するものも多い • うまくトークン化すれば多峰性を表現できる(と期待) 例)RT-2:行動空間をbinに区切ってトークン化 例)BeT:行動空間をk-meansでクラスタリングしてトークン化 例)VQ-BeT:階層VQ-VAEの利用(ICML2024) • 行動空間を階層VQ-VAEで離散化しておき,
方策はどのコードかとそのコードからの 差分を出力するように模倣学習
拡散モデルベースのモデル 25 Diffusion Policy(RSS2023) • 行動空間の多峰性を表現するために拡散モデルを用いた方策学習 • Denoisingの過程でDNNの推論を何度も繰り返すため推論速度が遅い https://diffusion-policy.cs.columbia.edu/
拡散モデルベースのモデル 26 Diffusion Policyの推論の高速化に関する研究も出ている 例)Consitency Policy(RSS2024) • 拡散モデルの高速化手法Consistency Trajectory Model(CTM)を用いた方策
• サンプリング手法の工夫 https://consistency-policy.github.io/
まとめ・議論 27 ここ1年でクロスドメインのデータセットが整備され, ロボット・タスク・環境間での汎化性・転移可能性が検証されてきた • ロボット間のゼロショット性能はそこまで高くないのでfine-tuning前提 • 言語指示や画像に関する表現などの事前知識を獲得した事前学習モデルとして利用 • タスク間では文脈内学習も可能という報告も
事前学習モデルと行動空間や入力が異なっていても適応する方法が提案 • Octoではヘッドを取り替えてfine-tuningする データとモデルをスケールさせて良い事前学習モデルを作っておき, 使いたい設定(ロボット・環境・タスク)で少数のデータを集め適応する という使い方になるのでは • 現在のLLM・VLMの使われ方とほぼ同じ 多様な事前学習用のデータを安価に大量に集めて事前学習モデルを作り, デプロイしながら性能を高めていくというシステム設計自体が大事になるはず • ロボットの業界自体が垂直統合から水平統合的に変わる可能性(?)
宣伝:「ロボットx基盤モデル」のサーベイ論文が出ました 28 Real-World Robot Applications of Foundation Models: A Review
• Kento Kawaharazuka, Tatsuya Matsushima, Andrew Gambardella, Jiaxian Guo, Chris Paxton1, Andy Zeng2 • 1Ex-Meta(現:Hello Robotics),2Ex-Google Brain • Advanced Robotics特集号へ掲載予定(採録決定済) • https://arxiv.org/abs/2402.05741