RSJ2024「基盤モデルの実ロボット応用」チュートリアルB（ロボット基盤モデル）

基盤モデルの実ロボット応用チュートリアルB 第42回日本ロボット学会学術講演会 OS3 基盤モデルの実ロボット応用（1）松嶋達也1 宮澤和貴2
河原塚健人1 1東京大学 2大阪大学 2024/09/06 09:12-09:24 @大阪工業大学梅田キャンパス

前回（RSJ2023）までのあらすじ 2 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 （実ロボット用の基盤モデルを作って活用する方法）

RSJ2023以降のロボット基盤モデル関連の話題 7 ① クロスドメインデータセット・モデル開発の進展 • データ：OpenX-Embodiment（OXE），DROID • モデル：公開ロボット基盤モデルの登場（Octo，OpenVLM） • ロボット基盤モデルは文脈内学習（in-context
learning）が可能か？ ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム（ALOHA，GELLO） • ハンド型データ収集装置（UMI） ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース

Open X-Embodiment（データセット）とRT-X（モデル） 9 Googleと世界21研究機関がオフラインのロボットデータセットを公開（OXE） • 22種類のロボット，527 skills (160,266 tasks)，1M+エピソード •
日本からも1機関3研究室が参加 OXEでRT-1/RT-2のモデルを学習（RT-X） • ロボットのハードウェアに（ある程度）汎化するモデルが得られる • 個別のデータで学習したRT-1/2よりも良い性能ロボット制御でも事前学習モデルとそのチューニングの有効性を示唆 • ICRA2024 Best Conference Paper https://robotics-transformer-x.github.io/ データ一覧のスプレッドシートが便利 https://docs.google.com/spreadsheets/d/1rPBD7 7tk60AEIGZrGSODwyyzs5FgCU9Uz3h- 3_t2A9g/edit?gid=0#gid=0

DROID：特定のロボットでの大規模追加データセット 10 ロボットやカメラの条件を合わせて収録したOXE形式でのデータセット • 7.6kエピソード，350時間，564シーン 86タスクの遠隔操作データ • OXEより多種類の動作・多様な物体 • OXEと混ぜて学習に利用可能
• 混ぜて学習した場合，外乱へのロバスト性が向上 https://droid-dataset.github.io/

Octo：OXEを用いたオープンソースなモデル 11 OXEの800kエピソードのデータで学習したtransformerベースの方策モデル • 複数の入力形式に対応し，事前学習時とは異なる入出力形式のデータで finetuning可能 • Transformerが出力するaction tokenをdiffusion policyで行動空間に変換
• Small：27Mパラメータ，base：93Mパラメータ • 学習済みの重みも公開（finetuning可能） DL輪読会： https://www.docswell.com/s/DeepLearning2023/54Q16Q-2024-02-02-134227 https://octo-models.github.io/

OpenVLA：VLMをfine-tuningして学習した方策モデル 12 7Bパラメータの視覚言語モデル（VLM）をfine-tuning（RT-2に近い方法） • OXEから970kエピソードのデータを利用 • 画像はDinoV2とSigLIPを使いtokenに • LLMとしてLlama2（7B）を利用 •
Actionはbinに区切ってtokenize • 注：新しい入出力形式への対応は未報告 https://openvla.github.io/

HSRT-X：コミュニティを利用したロボット基盤モデル構築 13 モバイルマニピュレータHSRを用いたロボット制御のend-to-endモデルをユーザコミュニティと連携して構築 • HSRはiHR研究専門委員会のもと国内30拠点以上で利用 • 共通PFとしてHSRを活用して，大規模データを収集し大規模E2E制御方策を学習，コミュニティ資産として活用 •
これまでに6拠点・100時間程度のデータセットを収集（14,255エピソード） RSJ2024 OS「インテリジェントホームロボティクス」で発表済（水曜日）

ロボット基盤モデルは文脈内学習可能か？ 14 基盤モデル（とくにLLM）の特徴の一つは文脈内学習（in-context learning） LLM 大規模言語モデル講座 2023コンテンツ公開ページ https://weblab.t.u-tokyo.ac.jp/llm_contents/

ロボット基盤モデルは文脈内学習可能か？ 15 LLM 大規模言語モデル講座 2023コンテンツ公開ページ https://weblab.t.u-tokyo.ac.jp/llm_contents/

ICRT：文脈内学習可能なロボット基盤モデル 16 ロボット基盤モデルも文脈内学習可能という報告がある（8/28公開） • タスクのデモをプロンプトとして与え設定の違う同じタスクを解く • 状態・行動のトークン列の次トークン予測問題として学習 • Llama2（7B）のモデルアーキテクチャを採用 •
DROIDから2kエピソードのデータを利用注：これまでも問題設定上はFew-shot模倣学習やメタ模倣学習として研究されていた https://icrt.dev/

比較的簡単・安価にデータを収集するシステムの提案 18 ALOHA・Mobile ALOHA • Stanfordが開発した双腕遠隔操作環境 • リーダ・フォロワ2台ずつのロボットを利用し姿勢を同期 • （まだ見にいけてないのですが）RSJでも8Fの機器展示ブースに実機があるそうです
• モバイルマニピュレータ版のMobile ALOHAもある • OXEにALOHA・Mobile ALOHAのデータ有 https://tonyzhaozh.github.io/aloha/ https://mobile-aloha.github.io/

比較的簡単・安価にデータを収集するシステムの提案 19 GELLO • フォロワをダウンスケールしたリーダで姿勢を制御して遠隔操作 • リーダ側を3Dプリントした部材と市販のモータ（dynamixel）で作成 • ALOHAよりも安価にリーダフォロワの遠隔操作システムを作れる •
複数種類のフォロワに対応 • 2024/9/6時点でUR，Panda，xArmのモデルが公開されている https://wuphilipp.github.io/gello_site/ 松尾研でも学生が作っていました（xArm版）

比較的簡単・安価にデータを収集するシステムの提案 20 UMI • ハンド型のデータ収集装置 • ハンドは3Dプリント可能，カメラはGoProを利用 • 画像ベースの自己位置推定モデル（ORB-SLAM3）でハンドの姿勢を算出
https://umi-gripper.github.io/

比較的簡単・安価にデータを収集するシステムの提案 21 日本でもいろいろ出現例）日立の装置＠ICRA2024 • 双腕＋台車 • 冗長自由度で学習仕様 • ぬるぬる遠隔操作できとても良い
（個人の感想）例）松尾研でも市販品を組み合わせ作成 • アールティのCraneXを利用 • 4台使って双腕遠隔操作可能 • ツイートに海外からのお問合せ有 https://x.com/micoolcho/status/1790211170248560741

Transformerベースのモデル 23 ACT（Action Chunking Transformer）ベースの実装が多い • Encoder-Decoder型の Transformerを用いた方策 • 将来複数ステップの行動を出力し
過去の出力と時間方向にアンサンブルして行動を決定 • ACTではTransformerが直接行動空間を出力 • 連続値ベクトルを出力 https://tonyzhaozh.github.io/aloha/

Transformerベースのモデル 24 Transformerベースのモデルでは行動空間を離散化するものも多い • うまくトークン化すれば多峰性を表現できる（と期待）例）RT-2：行動空間をbinに区切ってトークン化例）BeT：行動空間をk-meansでクラスタリングしてトークン化例）VQ-BeT：階層VQ-VAEの利用（ICML2024） • 行動空間を階層VQ-VAEで離散化しておき，
方策はどのコードかとそのコードからの差分を出力するように模倣学習

拡散モデルベースのモデル 25 Diffusion Policy（RSS2023） • 行動空間の多峰性を表現するために拡散モデルを用いた方策学習 • Denoisingの過程でDNNの推論を何度も繰り返すため推論速度が遅い https://diffusion-policy.cs.columbia.edu/

拡散モデルベースのモデル 26 Diffusion Policyの推論の高速化に関する研究も出ている例）Consitency Policy（RSS2024） • 拡散モデルの高速化手法Consistency Trajectory Model（CTM）を用いた方策
• サンプリング手法の工夫 https://consistency-policy.github.io/

まとめ・議論 27 ここ1年でクロスドメインのデータセットが整備され，ロボット・タスク・環境間での汎化性・転移可能性が検証されてきた • ロボット間のゼロショット性能はそこまで高くないのでfine-tuning前提 • 言語指示や画像に関する表現などの事前知識を獲得した事前学習モデルとして利用 • タスク間では文脈内学習も可能という報告も
事前学習モデルと行動空間や入力が異なっていても適応する方法が提案 • Octoではヘッドを取り替えてfine-tuningするデータとモデルをスケールさせて良い事前学習モデルを作っておき，使いたい設定（ロボット・環境・タスク）で少数のデータを集め適応するという使い方になるのでは • 現在のLLM・VLMの使われ方とほぼ同じ多様な事前学習用のデータを安価に大量に集めて事前学習モデルを作り，デプロイしながら性能を高めていくというシステム設計自体が大事になるはず • ロボットの業界自体が垂直統合から水平統合的に変わる可能性（？）

宣伝：「ロボットx基盤モデル」のサーベイ論文が出ました 28 Real-World Robot Applications of Foundation Models: A Review
• Kento Kawaharazuka, Tatsuya Matsushima, Andrew Gambardella, Jiaxian Guo, Chris Paxton1, Andy Zeng2 • 1Ex-Meta（現：Hello Robotics），2Ex-Google Brain • Advanced Robotics特集号へ掲載予定（採録決定済） • https://arxiv.org/abs/2402.05741

RSJ2024「基盤モデルの実ロボット応用」チュートリアルB（ロボット基盤モデル）

RSJ2024「基盤モデルの実ロボット応用」チュートリアルB（ロボット基盤モデル）

Tatsuya Matsushima

More Decks by Tatsuya Matsushima

Other Decks in Technology

Featured

Transcript

基盤モデルの実ロボット応用チュートリアルB 第42回日本ロボット学会学術講演会 OS3 基盤モデルの実ロボット応用（1）松嶋達也1 宮澤和貴2

前回（RSJ2023）までのあらすじ 2 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 （実ロボット用の基盤モデルを作って活用する方法）

前回（RSJ2023）までのあらすじ 3 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 （実ロボット用の基盤モデルを作って活用する方法）

前回（RSJ2023）までのあらすじ 4 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 （実ロボット用の基盤モデルを作って活用する方法）

前回（RSJ2023）までのあらすじ 5 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 （実ロボット用の基盤モデルを作って活用する方法）

前回（RSJ2023）までのあらすじ 6 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 （実ロボット用の基盤モデルを作って活用する方法）

Open X-Embodiment（データセット）とRT-X（モデル） 9 Googleと世界21研究機関がオフラインのロボットデータセットを公開（OXE） • 22種類のロボット，527 skills (160,266 tasks)，1M+エピソード •

OpenVLA：VLMをfine-tuningして学習した方策モデル 12 7Bパラメータの視覚言語モデル（VLM）をfine-tuning（RT-2に近い方法） • OXEから970kエピソードのデータを利用 • 画像はDinoV2とSigLIPを使いtokenに • LLMとしてLlama2（7B）を利用 •

ロボット基盤モデルは文脈内学習可能か？ 14 基盤モデル（とくにLLM）の特徴の一つは文脈内学習（in-context learning） LLM 大規模言語モデル講座 2023コンテンツ公開ページ https://weblab.t.u-tokyo.ac.jp/llm_contents/

ロボット基盤モデルは文脈内学習可能か？ 15 LLM 大規模言語モデル講座 2023コンテンツ公開ページ https://weblab.t.u-tokyo.ac.jp/llm_contents/

比較的簡単・安価にデータを収集するシステムの提案 20 UMI • ハンド型のデータ収集装置 • ハンドは3Dプリント可能，カメラはGoProを利用 • 画像ベースの自己位置推定モデル（ORB-SLAM3）でハンドの姿勢を算出

比較的簡単・安価にデータを収集するシステムの提案 21 日本でもいろいろ出現例）日立の装置＠ICRA2024 • 双腕＋台車 • 冗長自由度で学習仕様 • ぬるぬる遠隔操作できとても良い

Transformerベースのモデル 23 ACT（Action Chunking Transformer）ベースの実装が多い • Encoder-Decoder型の Transformerを用いた方策 • 将来複数ステップの行動を出力し

拡散モデルベースのモデル 25 Diffusion Policy（RSS2023） • 行動空間の多峰性を表現するために拡散モデルを用いた方策学習 • Denoisingの過程でDNNの推論を何度も繰り返すため推論速度が遅い https://diffusion-policy.cs.columbia.edu/

拡散モデルベースのモデル 26 Diffusion Policyの推論の高速化に関する研究も出ている例）Consitency Policy（RSS2024） • 拡散モデルの高速化手法Consistency Trajectory Model（CTM）を用いた方策

宣伝：「ロボットx基盤モデル」のサーベイ論文が出ました 28 Real-World Robot Applications of Foundation Models: A Review