Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RSJ2024「基盤モデルの実ロボット応用」チュートリアルB(ロボット基盤モデル)
Search
Tatsuya Matsushima
September 06, 2024
Technology
0
270
RSJ2024「基盤モデルの実ロボット応用」チュートリアルB(ロボット基盤モデル)
Tatsuya Matsushima
September 06, 2024
Tweet
Share
More Decks by Tatsuya Matsushima
See All by Tatsuya Matsushima
RSJ2023「基盤モデルの実ロボット応用」チュートリアル2(実ロボット用の基盤モデルを作って活用する方法)
tmats
2
1.4k
20201102RLArch.pdf
tmats
0
160
第32回 強化学習アーキテクチャ勉強会 状態表現学習と世界モデルの最近の研究,および深層生成モデルライブラリPixyzの紹介 #rlarch
tmats
6
3k
Other Decks in Technology
See All in Technology
Unsafe.BitCast のすゝめ。
nenonaninu
0
200
Amazon Q Developerで.NET Frameworkプロジェクトをモダナイズしてみた
kenichirokimura
1
200
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
6
54k
新卒1年目、はじめてのアプリケーションサーバー【IBM WebSphere Liberty】
ktgrryt
0
120
いま現場PMのあなたが、 経営と向き合うPMになるために 必要なこと、腹をくくること
hiro93n
9
7.7k
0→1事業こそPMは営業すべし / pmconf #落選お披露目 / PM should do sales in zero to one
roki_n_
PRO
1
1.5k
【Oracle Cloud ウェビナー】2025年のセキュリティ脅威を読み解く:リスクに備えるためのレジリエンスとデータ保護
oracle4engineer
PRO
1
100
ゼロからわかる!!AWSの構成図を書いてみようワークショップ 問題&解答解説 #デッカイギ #羽田デッカイギおつ
_mossann_t
0
1.5k
なぜfreeeはハブ・アンド・スポーク型の データメッシュアーキテクチャにチャレンジするのか?
shinichiro_joya
2
470
Copilotの力を実感!3ヶ月間の生成AI研修の試行錯誤&成功事例をご紹介。果たして得たものとは・・?
ktc_shiori
0
350
今から、 今だからこそ始める Terraform で Azure 管理 / Managing Azure with Terraform: The Perfect Time to Start
nnstt1
0
240
Godot Engineについて調べてみた
unsoluble_sugar
0
400
Featured
See All Featured
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.3k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.4k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Fireside Chat
paigeccino
34
3.1k
Why Our Code Smells
bkeepers
PRO
335
57k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
230
52k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
19
2.3k
Bash Introduction
62gerente
610
210k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
Testing 201, or: Great Expectations
jmmastey
41
7.2k
Transcript
基盤モデルの実ロボット応用 チュートリアルB 第42回 日本ロボット学会学術講演会 OS3 基盤モデルの実ロボット応用(1) 松嶋 達也1 宮澤 和貴2
河原塚 健人1 1東京大学 2大阪大学 2024/09/06 09:12-09:24 @大阪工業大学梅田キャンパス
前回(RSJ2023)までのあらすじ 2 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 3 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 4 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 5 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 6 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
RSJ2023以降のロボット基盤モデル関連の話題 7 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
RSJ2023以降のロボット基盤モデル関連の話題 8 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
Open X-Embodiment(データセット)とRT-X(モデル) 9 Googleと世界21研究機関がオフラインのロボットデータセットを公開(OXE) • 22種類のロボット,527 skills (160,266 tasks),1M+エピソード •
日本からも1機関3研究室が参加 OXEでRT-1/RT-2のモデルを学習(RT-X) • ロボットのハードウェアに(ある程度)汎化するモデルが得られる • 個別のデータで学習したRT-1/2よりも良い性能 ロボット制御でも事前学習モデルとそのチューニングの有効性を示唆 • ICRA2024 Best Conference Paper https://robotics-transformer-x.github.io/ データ一覧のスプレッドシートが便利 https://docs.google.com/spreadsheets/d/1rPBD7 7tk60AEIGZrGSODwyyzs5FgCU9Uz3h- 3_t2A9g/edit?gid=0#gid=0
DROID:特定のロボットでの大規模追加データセット 10 ロボットやカメラの条件を合わせて収録したOXE形式でのデータセット • 7.6kエピソード,350時間,564シーン 86タスクの遠隔操作データ • OXEより多種類の動作・多様な物体 • OXEと混ぜて学習に利用可能
• 混ぜて学習した場合,外乱へのロバスト性が向上 https://droid-dataset.github.io/
Octo:OXEを用いたオープンソースなモデル 11 OXEの800kエピソードのデータで学習したtransformerベースの方策モデル • 複数の入力形式に対応し,事前学習時とは異なる入出力形式のデータで finetuning可能 • Transformerが出力するaction tokenをdiffusion policyで行動空間に変換
• Small:27Mパラメータ,base:93Mパラメータ • 学習済みの重みも公開(finetuning可能) DL輪読会: https://www.docswell.com/s/DeepLearning2023/54Q16Q-2024-02-02-134227 https://octo-models.github.io/
OpenVLA:VLMをfine-tuningして学習した方策モデル 12 7Bパラメータの視覚言語モデル(VLM)をfine-tuning(RT-2に近い方法) • OXEから970kエピソードのデータを利用 • 画像はDinoV2とSigLIPを使いtokenに • LLMとしてLlama2(7B)を利用 •
Actionはbinに区切ってtokenize • 注:新しい入出力形式への対応は未報告 https://openvla.github.io/
HSRT-X:コミュニティを利用したロボット基盤モデル構築 13 モバイルマニピュレータHSRを用いたロボット制御のend-to-endモデルを ユーザコミュニティと連携して構築 • HSRはiHR研究専門委員会のもと国内30拠点以上で利用 • 共通PFとしてHSRを活用して,大規模データを収集し 大規模E2E制御方策を学習,コミュニティ資産として活用 •
これまでに6拠点・100時間程度の データセットを収集(14,255エピソード) RSJ2024 OS「インテリジェントホームロボティクス」で発表済(水曜日)
ロボット基盤モデルは文脈内学習可能か? 14 基盤モデル(とくにLLM)の特徴の一つは文脈内学習(in-context learning) LLM 大規模言語モデル講座 2023コンテンツ 公開ページ https://weblab.t.u-tokyo.ac.jp/llm_contents/
ロボット基盤モデルは文脈内学習可能か? 15 LLM 大規模言語モデル講座 2023コンテンツ 公開ページ https://weblab.t.u-tokyo.ac.jp/llm_contents/
ICRT:文脈内学習可能なロボット基盤モデル 16 ロボット基盤モデルも文脈内学習可能という報告がある(8/28公開) • タスクのデモをプロンプトとして与え設定の違う同じタスクを解く • 状態・行動のトークン列の次トークン予測問題として学習 • Llama2(7B)のモデルアーキテクチャを採用 •
DROIDから2kエピソードのデータを利用 注:これまでも問題設定上はFew-shot模倣学習や メタ模倣学習として研究されていた https://icrt.dev/
RSJ2023以降のロボット基盤モデル関連の話題 17 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
比較的簡単・安価にデータを収集するシステムの提案 18 ALOHA・Mobile ALOHA • Stanfordが開発した双腕遠隔操作環境 • リーダ・フォロワ2台ずつのロボットを利用し姿勢を同期 • (まだ見にいけてないのですが)RSJでも8Fの機器展示ブースに実機があるそうです
• モバイルマニピュレータ版のMobile ALOHAもある • OXEにALOHA・Mobile ALOHAのデータ有 https://tonyzhaozh.github.io/aloha/ https://mobile-aloha.github.io/
比較的簡単・安価にデータを収集するシステムの提案 19 GELLO • フォロワをダウンスケールしたリーダで姿勢を制御して遠隔操作 • リーダ側を3Dプリントした部材と市販のモータ(dynamixel)で作成 • ALOHAよりも安価にリーダフォロワの遠隔操作システムを作れる •
複数種類のフォロワに対応 • 2024/9/6時点でUR,Panda,xArmのモデルが公開されている https://wuphilipp.github.io/gello_site/ 松尾研でも学生が作っていました(xArm版)
比較的簡単・安価にデータを収集するシステムの提案 20 UMI • ハンド型のデータ収集装置 • ハンドは3Dプリント可能,カメラはGoProを利用 • 画像ベースの自己位置推定モデル (ORB-SLAM3)でハンドの姿勢を算出
https://umi-gripper.github.io/
比較的簡単・安価にデータを収集するシステムの提案 21 日本でもいろいろ出現 例)日立の装置@ICRA2024 • 双腕+台車 • 冗長自由度で学習仕様 • ぬるぬる遠隔操作できとても良い
(個人の感想) 例)松尾研でも市販品を組み合わせ作成 • アールティのCraneXを利用 • 4台使って双腕遠隔操作可能 • ツイートに海外からのお問合せ有 https://x.com/micoolcho/status/1790211170248560741
RSJ2023以降のロボット基盤モデル関連の話題 22 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
Transformerベースのモデル 23 ACT(Action Chunking Transformer)ベースの実装が多い • Encoder-Decoder型の Transformerを用いた方策 • 将来複数ステップの行動を出力し
過去の出力と時間方向に アンサンブルして行動を決定 • ACTではTransformerが直接行動空間を出力 • 連続値ベクトルを出力 https://tonyzhaozh.github.io/aloha/
Transformerベースのモデル 24 Transformerベースのモデルでは行動空間を離散化するものも多い • うまくトークン化すれば多峰性を表現できる(と期待) 例)RT-2:行動空間をbinに区切ってトークン化 例)BeT:行動空間をk-meansでクラスタリングしてトークン化 例)VQ-BeT:階層VQ-VAEの利用(ICML2024) • 行動空間を階層VQ-VAEで離散化しておき,
方策はどのコードかとそのコードからの 差分を出力するように模倣学習
拡散モデルベースのモデル 25 Diffusion Policy(RSS2023) • 行動空間の多峰性を表現するために拡散モデルを用いた方策学習 • Denoisingの過程でDNNの推論を何度も繰り返すため推論速度が遅い https://diffusion-policy.cs.columbia.edu/
拡散モデルベースのモデル 26 Diffusion Policyの推論の高速化に関する研究も出ている 例)Consitency Policy(RSS2024) • 拡散モデルの高速化手法Consistency Trajectory Model(CTM)を用いた方策
• サンプリング手法の工夫 https://consistency-policy.github.io/
まとめ・議論 27 ここ1年でクロスドメインのデータセットが整備され, ロボット・タスク・環境間での汎化性・転移可能性が検証されてきた • ロボット間のゼロショット性能はそこまで高くないのでfine-tuning前提 • 言語指示や画像に関する表現などの事前知識を獲得した事前学習モデルとして利用 • タスク間では文脈内学習も可能という報告も
事前学習モデルと行動空間や入力が異なっていても適応する方法が提案 • Octoではヘッドを取り替えてfine-tuningする データとモデルをスケールさせて良い事前学習モデルを作っておき, 使いたい設定(ロボット・環境・タスク)で少数のデータを集め適応する という使い方になるのでは • 現在のLLM・VLMの使われ方とほぼ同じ 多様な事前学習用のデータを安価に大量に集めて事前学習モデルを作り, デプロイしながら性能を高めていくというシステム設計自体が大事になるはず • ロボットの業界自体が垂直統合から水平統合的に変わる可能性(?)
宣伝:「ロボットx基盤モデル」のサーベイ論文が出ました 28 Real-World Robot Applications of Foundation Models: A Review
• Kento Kawaharazuka, Tatsuya Matsushima, Andrew Gambardella, Jiaxian Guo, Chris Paxton1, Andy Zeng2 • 1Ex-Meta(現:Hello Robotics),2Ex-Google Brain • Advanced Robotics特集号へ掲載予定(採録決定済) • https://arxiv.org/abs/2402.05741