Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

RSJ2023「基盤モデルの実ロボット応用」チュートリアル2(実ロボット用の基盤モデルを作って...

Tatsuya Matsushima
September 20, 2023

 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2(実ロボット用の基盤モデルを作って活用する方法)

RSJ2023「基盤モデルの実ロボット応用」チュートリアル2(実ロボット用の基盤モデルを作って活用する方法)

Tatsuya Matsushima

September 20, 2023
Tweet

More Decks by Tatsuya Matsushima

Other Decks in Research

Transcript

  1. 3

  2. Foundation Model(基盤モデル) “On the Opportunities and Risks of Foundation Models”,

    2021 5 • 2021/8/16初出のホワイト ペーパーで登場した⾔葉 • Stanfordの研究機関の名称にも なっている(⻘枠) (Abstractより抜粋) “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT- 3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character”
  3. 基盤モデルの特徴は︖ 7 “On the Opportunities and Risks of Foundation Models”より抜粋

    1. ⾮常に幅広いタスク を(追加学習なしに) 単⼀のモデルで解ける 2. モデル・計算量・ データのスケーリング により実現されること 3. ⾔語に限らない (のではという期待
  4. 対象は⾔語に限らない(のではという期待) 基盤モデルの特徴3 10 ⼤規模モデル(Transformer) 例︓Gato, RT-1, X-Former 例︓Dreamer v3 +

    ⼤規模なデータ 例: SAMでの1Bのマスクデータ 例︓Gato, RT-1 + ⼤規模計算 例︓スケール則は別ドメインでも成⽴ 1. ⽅法論の共通化 (別ドメインでの基盤モデル構築) 2. ドメインを超えたモデル共有 ⾔語モデルの活⽤ 例︓Say-Can, Voyager, など マルチモーダル化 ”One model to Learn Them All”, 2017 的な世界観(右下の図) 例︓ GPT4
  5. ⾃⼰教師あり学習 + ⼤規模Transformer (High-Capacity Networks) 11 1) Causal Language Model

    2) Masked Language Model ⼤規模Transformer ⼤規模Transformer Input: Language models determine Output: word probability by analyzing text data Input: Language models determine [mask] [mask] by [mask] text data Input: Language models determine word probability by analyzing text data Original: Language models determine word probability by analyzing text data 最近の成功している⾔語モデルはほぼ上記のような構造を利⽤
  6. Robotic Foundation Models 12 ロボットに特化した基盤モデルを構築する取り組みが出てきている • “Robotic Foundation Models”と呼ぶことにする Robotic

    Foundation Modelを作る⽬的 • 特徴量抽出のための⼤規模モデル • 制御まで出⼒するEnd-to-endの⼤規模モデル • (参考)ロボットのための⾔語モデル • これはあまり多くない Robotic Foundation Modelを作るためのレシピ • データセット • アーキテクチャ • ⽬的関数
  7. Robotic Foundation Modelsを作る⽬的 13 ① 特徴量抽出のための⼤規模モデル • 主に(チュートリアル1の)「low-level perception」で利⽤する想定 ②

    制御まで出⼒するEnd-to-endの⼤規模モデル • すべてのモジュールを⼀つのモデルでEnd-to-Endすることに学習 (参考)ロボットのための⾔語モデル • 主に「high-level planner」に利⽤する想定 • これはあまり多くない印象
  8. Atari, Image Captioning, Chat, Robot Manipulationなどを同⼀ ネットワークで解ける⽅法も登場(Gato) 制御まで出⼒するEnd-to-endの⼤規模モデル 15 •

    ⾏動を含む⼤規模なデータで1.28Bの⽅策を学習.実時間で推論できるようにほかモデルより少 し⼩さい.(とは⾔え強化学習で使われるモデルとしては相当巨⼤) • Few-Shotでの性能が特にモデルが⼤きい場合⼤幅に向上(Promptingではなく普通に学習) • 同様にスケールさせた研究として,Robot Transformer (RT-1), BC-Z, Dreamer v3など https://www.deepmind.com/publications/a-generalist-agent
  9. Robot Transformer (RT-1) 制御まで出⼒するEnd-to-endの⼤規模モデル 16 モデル • Efficient NetとTransformer の組み合わせ

    • インストラクションに従い 動作⽣成 データ • EDR13台,17ヶ⽉,744タ スク,13万デモ • 訓練︓97%で動作 • 汎化︓種々の意味で⼤幅向上 (未知タスク,未知ソース等 • Long Horizonなタスクも可 ※ 類似研究にGato,BC-Zなど
  10. マルチモーダル⼊⼒のロボット⽤⾔語モデル | PaLM-E (参考)ロボットのための⾔語モデル 17 • 画像とテキストのマルチモーダル⼊⼒を受け付ける(Decoder-only)⼤規模⾔語モデル • 22BパラメータのViTと540BパラメータのPaLM(LLM) •

    ⾔語タスクのほか,ロボットのプランニングタスクやVQA・キャプショニングタスクで学習 ※ロボット⽤⾔語モデル(⾔語出⼒)はあまり多くない印象 https://palm-e.github.io/
  11. アーキテクチャの⼯夫 23 TransformerがUniversalなアーキテクチャとしてさまざまなモダリティの データに利⽤されている • ⾔語︓TransformerベースのLLM • 事前学習済みのものもよく利⽤される • 画像︓Vision

    Transformer (ViT) • ResNet(CNN)を⽤いているものもある • 点群︓Point Transformer ネットワーク内で複数のモダリティの特徴量を 組み合わせる際の⼯夫も議論されている • 単純には特徴を連結すれば良い • FiLM conditioning(よく利⽤される) • https://arxiv.org/abs/1709.07871
  12. Tokenizatonの⽅法 ⾔語以外のドメインでの基盤モデル 24 ▪ 画像の場合 ▪ 時系列(動画)の場合 • ⼊⼒をパッチ化して,各パッチを 埋め込みに変換

    • 原理的にサイズが⼤きくなると⾟い • ⼀度VQ-VAEでトークンに離散変換 • よいVQ-VAE⾃体はどう作るのか︖ ⾔語と⽐べて系列⻑が膨⼤になりがちで切れ⽬も不透明. 無理⽮理塊を作って扱っているため,誤差が蓄積しうる.
  13. RT-1/RT-2では⾏動を直接予測 ⾏動の予測 27 RT-1では離散化(bin分割) した⾏動(姿勢変化)を出⼒ • 連続値出⼒よりも性能が 良いことを確認 ※ おそらく出⼒空間の

    多峰性の影響 RT-2は⾏動のtokenを出⼒ • 対応する⾏動をデコード • ⾔語モデルと同様に扱えるた め,⾔語データと同時に fine-tuning
  14. 転移可能な順モデルの学習 | Generalist Dynamics Model 未来の状態/観測の予測(Forward dynamics) 29 さまざまな制御タスクに利⽤ (転移)可能なforward

    model を学習 • データ全てを時系列とみなし て時系列予測 • LLMにおけるnext token prediction ロボットの制御をする際はMPC で⾏動選択 • 当論⽂ではシミュレータ上で の検証のみ
  15. さまざまなモダリティのデータを統⼀的に扱って⽅策を学習 | Gato マルチモーダルな予測 30 • さまざまな制御(ゲーム・ロボット)タスクや⾔語タスクで巨⼤な⽅策(1.28B)を学習 • タスクに合わせて連続値の⾏動・離散地の⾏動・テキストを出⼒ •

    異なるモダリティを⼀つのモデルで扱うためにモダリティごとにtokenize/embedding • ロボットの応⽤を発展させた研究としてRoboCatがある(主にデータ取得⽅法で改善) • https://www.deepmind.com/blog/robocat-a-self-improving-robotic-agent
  16. Universal APIの重要性 | UniMask “UniMASK: Unified Inference in Sequential Decision

    Problems”, NeurIPS2022 31 • ⾔語の成功の⼀因は多様なタスクを⾔語In⾔語Outの同じ形式でかけること (Universal API) • 他のドメインにおけるUniversal APIの設計は重要な研究
  17. 議論 32 データ・計算リソースの制約からRobotic Foundation Modelを作っている のは(他の基盤モデルの例に漏れず)ごく⼀部の研究機関 • 限られた機関のみがマルチモーダルな基盤モデルを構築する知⾒を持つ ロボットを実世界で動かすという観点では, ずっとロボティクスで議論されていながらも実現されてない側⾯も多い

    • モデルの⼤きさ故リアルタイムの制御が難しい • 例︓RT-2は「推論時に」複数のTPUを使って1-3Hzしか出ない • 視野外の情報をきちんと扱えているのかは不明 • そもそも基盤モデルがどれだけ記憶できるかは未知な部分が多い • 予測モデルの学習・利⽤の話はまだあまり出てきていない • リアルタイムな制御や視野外の情報の処理(統合)に関する問題を解決する⽅向の⼀つ End-to-Endのモデルがどこまで制御に実利⽤できるかは未知な部分も⼤きい • 学習の研究としてモデルを統⼀する⽅向なのは(おそらく)既定路線 • 推論や学習の効率化(スキルの学習との組み合わせなど)が必須では︖
  18. 本チュートリアルのまとめ 33 基盤モデルを実ロボット応⽤するための技術動向について, 活⽤⽅法とロボット特化のモデルの構築⽅法を中⼼に紹介しました (後半︓松嶋) 3. 基盤モデルで何が実現されたか︖ • 1) ⾼い適応能⼒

    (Few-Shot), 2) スケール則, 3) 他モダリティへの転⽤ 4. ロボット特有の基盤モデルの構築にはデータ・モデル・⽬的関数の⼯夫が必要 • ⼤規模データセット / Transformerとモダリティの統合 / さまざまな予測対象 (前半︓河原塚) 1.基盤モデルは⾔語や視覚(+α)での汎化性能の⾼いモデル • LLM / VLM / ALM …etc 2.基盤モデルを組み合わせてさまざまなロボットシステムを構築可能 • Low/High-level Perception, Low/High-level Planning
  19. OS4「基盤モデルの実ロボット応⽤」について 34 本OSでのご発表・ご参加⼤変ありがとうございます︕ 本OSは開催1年⽬ですが… • 3セッション・ 21本の発表 • 7研究機関から68名の著者(重複なしでカウント) •

    多岐にわたる応⽤先 • ⽣活⽀援ロボット,料理ロボット,HRI,脚ロボット…etc • 多岐にわたる技術・活⽤法 • ⾏動計画,対話,世界モデルの学習,説明⽂⽣成,物体操作…etc 本OSを通じて(議論の多い)先端的なテーマを楽しんでいただければ & 新しく活発な研究コミュニティが⽣まれれば と思います
  20. 宣伝 35 英⽂誌Advanced Roboticsの特集号 • ⽇本ロボット学会の英⽂誌 • Google・Metaなど海外で基盤モデルのロボット応⽤を研究する 第⼀⼈者たちも本特集号のエディタ陣を務める •

    サーベイ論⽂も歓迎 • 原稿〆切︓2024/1/31 ※ 採録が決定次第,順次web上で公開予定 論⽂投稿をぜひご検討ください︕︕