Upgrade to Pro — share decks privately, control downloads, hide ads and more …

RSJ2024「基盤モデルの実ロボット応用」チュートリアルB(ロボット基盤モデル)

 RSJ2024「基盤モデルの実ロボット応用」チュートリアルB(ロボット基盤モデル)

Tatsuya Matsushima

September 06, 2024
Tweet

More Decks by Tatsuya Matsushima

Other Decks in Technology

Transcript

  1. RSJ2023以降のロボット基盤モデル関連の話題 7 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context

    learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
  2. RSJ2023以降のロボット基盤モデル関連の話題 8 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context

    learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
  3. Open X-Embodiment(データセット)とRT-X(モデル) 9 Googleと世界21研究機関がオフラインのロボットデータセットを公開(OXE) • 22種類のロボット,527 skills (160,266 tasks),1M+エピソード •

    日本からも1機関3研究室が参加 OXEでRT-1/RT-2のモデルを学習(RT-X) • ロボットのハードウェアに(ある程度)汎化するモデルが得られる • 個別のデータで学習したRT-1/2よりも良い性能 ロボット制御でも事前学習モデルとそのチューニングの有効性を示唆 • ICRA2024 Best Conference Paper https://robotics-transformer-x.github.io/ データ一覧のスプレッドシートが便利 https://docs.google.com/spreadsheets/d/1rPBD7 7tk60AEIGZrGSODwyyzs5FgCU9Uz3h- 3_t2A9g/edit?gid=0#gid=0
  4. RSJ2023以降のロボット基盤モデル関連の話題 17 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context

    learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
  5. 比較的簡単・安価にデータを収集するシステムの提案 21 日本でもいろいろ出現 例)日立の装置@ICRA2024 • 双腕+台車 • 冗長自由度で学習仕様 • ぬるぬる遠隔操作できとても良い

    (個人の感想) 例)松尾研でも市販品を組み合わせ作成 • アールティのCraneXを利用 • 4台使って双腕遠隔操作可能 • ツイートに海外からのお問合せ有 https://x.com/micoolcho/status/1790211170248560741
  6. RSJ2023以降のロボット基盤モデル関連の話題 22 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context

    learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
  7. Transformerベースのモデル 23 ACT(Action Chunking Transformer)ベースの実装が多い • Encoder-Decoder型の Transformerを用いた方策 • 将来複数ステップの行動を出力し

    過去の出力と時間方向に アンサンブルして行動を決定 • ACTではTransformerが直接行動空間を出力 • 連続値ベクトルを出力 https://tonyzhaozh.github.io/aloha/
  8. まとめ・議論 27 ここ1年でクロスドメインのデータセットが整備され, ロボット・タスク・環境間での汎化性・転移可能性が検証されてきた • ロボット間のゼロショット性能はそこまで高くないのでfine-tuning前提 • 言語指示や画像に関する表現などの事前知識を獲得した事前学習モデルとして利用 • タスク間では文脈内学習も可能という報告も

    事前学習モデルと行動空間や入力が異なっていても適応する方法が提案 • Octoではヘッドを取り替えてfine-tuningする データとモデルをスケールさせて良い事前学習モデルを作っておき, 使いたい設定(ロボット・環境・タスク)で少数のデータを集め適応する という使い方になるのでは • 現在のLLM・VLMの使われ方とほぼ同じ 多様な事前学習用のデータを安価に大量に集めて事前学習モデルを作り, デプロイしながら性能を高めていくというシステム設計自体が大事になるはず • ロボットの業界自体が垂直統合から水平統合的に変わる可能性(?)
  9. 宣伝:「ロボットx基盤モデル」のサーベイ論文が出ました 28 Real-World Robot Applications of Foundation Models: A Review

    • Kento Kawaharazuka, Tatsuya Matsushima, Andrew Gambardella, Jiaxian Guo, Chris Paxton1, Andy Zeng2 • 1Ex-Meta(現:Hello Robotics),2Ex-Google Brain • Advanced Robotics特集号へ掲載予定(採録決定済) • https://arxiv.org/abs/2402.05741