Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」

MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」

Avatar for Kento Kawaharazuka

Kento Kawaharazuka

July 28, 2025
Tweet

More Decks by Kento Kawaharazuka

Other Decks in Research

Transcript

  1. 自己紹介 • 名前 – 河原塚 健人 (かわはらづか けんと) • 所属

    – 東京大学AIセンター/情報システム工学研究室(JSK) • 経歴 – 2022.03 博士取得 / 2025.02 講師になりました! • Twitter – @KKawaharazuka • Website – https://haraduka.github.io/ 2 Humanoid Design Biomimetic Control Foundation Models Predictive Model Learning Open Hardware
  2. 4 Kengoro [Y. Asano+, IROS2016] [T. Makabe, K. Kawaharazuka+, Humanoids2018]

    [S. Makino, K. Kawaharazuka+, IROS2018] [K. Kawaharazuka+, IROS2017]
  3. なぜ基盤モデルの世界へ? • 2022.07.06 – JSAI2022で話した縁で, 松尾研にお邪魔しCLIPの話を聞く • 2022.08.15 – 頭の片隅にあったCLIPやVQAが可能なモデルの面白さに気付き,

    学生とご飯を食べながらブレスト • 2022.09.15 – ICRA2023に, ロボットのための言語による状態認識に関する研究 を2本投稿 • 2022.10.17 – ロボティクスシンポジア2023に料理/パトロール/ナビゲーション の観点から3本の論文を投稿 • 2023.02.20 – 日本ロボット学会でオーガナイズドセッションを企画 • 2023.03.18 – 認知ロボティクス作戦会議で特集号の話が持ち上がる 8 …
  4. そもそも、なんでロボット基盤モデル? • これまでは, 各モダリティに 関する大規模モデルを用いて 個別に情報抽出を行っていた • うわべだけの画像・言語の 認識になりがち &

    アクション にうまく結びつかない • 画像・言語・アクションを すべてひっくるめて学習する べきだよね 20 VLA Survey [R. Sapkota, arXiv, 2025]
  5. 主要なVLAの流れ Transformer  Robotics Transformer  Hierarchy  Diffusion Policy

    / Open Source  Diffusion Transformer  Latent Action Extraction  Flow Matching という流れ 28
  6. CLIPort 29 [M. Shridhar, CoRL2021] • End-to-EndなVLAとしては最も原始的なモデル • CLIPによる言語情報と視覚情報の抽出 •

    Pick and Placeに特化したTransporter Networkとの結合 • RGB-D画像と言語情報からどの物体をどこに置くべきかを生成 • CNN/MLP構成では多様なモダリティの扱い/スケーラビリティに限界
  7. Gato • 単一のTransformerモデルでText Chat・VQA・Image Captioning・ GamePlay・ロボット制御など様々なタスクを実行可能 • 言語指示をSentencePieceで, 画像をViTでトークン化し, Decoder-only

    Transformerで自己回帰的にアクショントークンを生成 • ロボットについては簡単なブロック積みタスクのみ 30 [DeepMind, TMLR2022]
  8. VIMA 31 [Y. Jiang+, ICML2023] • ゴール画像やテキストを含む多様なタスク指示が可能な Encoder-Decoder型のTransformer • Mask

    R-CNNで物体検出, 各物体画像をViTで, 言語指示はT5エンコーダ でトークン化, バウンディングボックス情報もトークン化 • 多様なロボットタスクが可能だがシミュレーションのみでの試行
  9. Octo • Diffusion Policyを取り入れた最初のVLA • 全トークンを一列に並べてTransformerに入力, readout tokenで条件づ けたDiffusion Action

    Headを接続 • 離散トークンではなく連続値としてアクションを生成できるように • 全ソースコードをオープンにしたことで大きな注目を浴びた 38 [D. Ghosh+, RSS2024]
  10. OpenVLA • Octoと同様にオープンソースとして公開 • 画像入力をDINOv2とSigLIPにより変換して入力する, LLaMA 2を ベースとしたPrismatic VLMをバックボーンとして使用 •

    RT-Xのデータセットを用いてfull fine-tuningし, RT-2やOctoより高い性能 • OpenVLA/Prismatic VLMがベースのモデルとして頻繁に用いられる 39 [M. J. Kim+, CoRL2024]
  11. RDT-1B • 大規模なロボット用のDiffusion Transformer • Action HeadとしてDiffusion Policyを用いるのではなく, Transformer を直接使って,

    画像とテキストを条件とした拡散過程を表現 • より密に画像と言語をアクションに結び付けられる 40 [S. Liu+, ICLR2025]
  12. LAPA • アクションラベルなしの人間のデモンストレーション動画から Latent Actionを抽出, これをVLAの事前学習に利用する • 𝒙𝑡 と𝒙𝑡+𝐻 の特徴量差分を計算しVQ-VAEで𝒛𝑡

    にトークン化, 𝒙𝑡 と𝒛𝑡 から 𝒙𝑡+𝐻 を復元するような学習を行い, 𝒛𝑡 を形作る • VLAのreadout tokenからMLPを通して𝑧𝑡 を出力できるように学習 • 事後学習ではMLPだけ挿げ替えてロボットのアクション出力を学習 • 人間の大量のデモンストレーション動画をデータとして利用可能に 41 [S. Ye+, ICLR2025]
  13. 𝜋0.5 • 事前学習ではsubtask promptや離散アクショントークンを学習 • 事後学習ではsubtask promptを入力しFlow Matchingで学習 • 離散アクションの方が言語と統一的に扱いやすいが,

    最終的には滑 らかな連続的なアクションを出力したいという2つの階層を統合 44 [Physical Intelligence, 2025] post-training & inference
  14. Sensorimotor Model型VLAの分類 代表的な例 (1) RT-1, Gato (2) Octo, NoMAD (3)

    RDT-1B, LBMs (4) RT-2, GR-1 (5) 𝜋0 , GO-1 (6) GR00T N1 48
  15. UniPi • Video Diffusion Modelベースの, 現在画像とテキストから将来画 像列を出す世界モデル構築 • 生成された画像列を満たすアク ションを生成するInverse

    Dynamics Model (IDM)を構築 • これにより画像と言語指示から アクションが生成できる • このWorld Model + IDMの組み合 わせは非常に多くみられる • 他にはHiP, Dreamitate, LUMOS 51 [Y. Du+, NeurIPS2023]
  16. LAPA • 𝒙𝑡 と𝒙𝑡+𝐻 の特徴量差分を計算しVQ-VAEで𝒛𝑡 にトークン化 (Inverse Dynamics Model, IDM),

    𝒙𝑡 と𝒛𝑡 から𝒙𝑡+𝐻 を復元(World Model)する学習を行い, 𝒛𝑡 を形作る • VLAのreadout tokenからMLPを通して𝑧𝑡 を出力できるように学習 • 事後学習ではMLPだけ挿げ替えてロボットのアクション出力を学習 53 [S. Ye+, ICLR2025]
  17. GR-1 • Ego4Dデータセットを使って, 将来の画像列を予測できるように VLMを事前学習する (世界モデルの構築) • その後, 画像と言語, proprioceptionからアクションと将来画像を

    予測できるように 事後学習を行う • 通常のVLAに世界モデル の考え方を組み込むこと で, 性能の向上が可能 • 他にはGR-MG, 3D-VLA 55 [ByteDance, ICLR2024]
  18. マニピュレータ 65 Franka Emika Panda WidowX-250 KUKA LBR iiwa 14

    SO-101 特徴的なVLA – Shake-VLA / RoboNurse-VLA
  19. Project Aria 76 [Meta, arXiv, 2023] • コンパクトなスマートグラスにより, 人間の一人称視点からの行動 を記録,

    これをVLAの事前学習に利用する • Ego-Exo4D, HOT3D, HD EPIC, Aria Everyday Activitiesなど, 多様なデータセットが公開されている
  20. DROID 82 • 13機関・18台の共通プラットフォームにより564環境・86タスク・ 350時間の76,000軌道データを収集し公開 • Franka Emika Panda +

    Robotiq 2F-85 Gripper + 2×ZED2 + ZED Mini • Oculus Quest 2による6DOFマニピュレーション [A. Khazatsky+, RSS2024]
  21. データ拡張 • ロボットにおけるデータ拡張は かなり難しい • 通常の画像処理であれば, 画像の 拡大縮小・クロップ・平行移動な どが可能だが, ロボットには身体性

    があり, 身体とカメラの位置関係に は意味がある • 拡散モデルを用いたテクスチャな どの変化が行われる 84 Imgaug, A. Jung+
  22. CALVIN 92 [O. Mees+, RA-L, 2022] • 自然言語に従った長期的なロボット操作タスクの公開ベンチマーク • 7自由度ロボットアーム(Franka

    Emika Panda)による34の基本タスク • 見た目や配置の異なるA/B/C/D 4つの環境をPyBulletで構築 • 固定と手首のRGB-D画像, 触覚画像が得られる
  23. LIBERO • CALVINと同様に頻繁に用いられる言語操作タスクのベンチマーク • MuJoCoを使ったRobosuiteがベース + Franka Emika Panda •

    130のタスクを含む4つのカテゴリを備え, それぞれ問う知識が異なる • LIBERO-SPATIAL: 空間知識 • 同一物体の異なる配置 • LIBERO-OBJECT: 物体知識 • 異なる物体を扱う • LIBERO-GOAL: 動作知識 • 同じ状況/ゴールのみ異なる • LIBERO-100: 複合タスク 93 [B. Liu+, NeurIPS2023]
  24. RTシリーズについて •Data-centric AI本で! • 第5章 ロボットデータ • はじめに • RTシリーズの概要

    • 多様なロボット • ロボットにおけるデータ収集 • データセット • データ拡張 • おわりに 97