Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RSJ2025「基盤モデルの実ロボット応用」チュートリアル2025-1(河原塚)
Search
Kento Kawaharazuka
September 02, 2025
2
740
RSJ2025「基盤モデルの実ロボット応用」チュートリアル2025-1(河原塚)
Kento Kawaharazuka
September 02, 2025
Tweet
Share
More Decks by Kento Kawaharazuka
See All by Kento Kawaharazuka
RSJ2025「オープンハードウェアと学習制御」チュートリアル2025(河原塚)
haraduka
3
420
MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」
haraduka
15
8.4k
Data-centric AI勉強会 「ロボットにおけるData-centric AI」
haraduka
0
920
RSJ2024学術ランチョンセミナー「若手・中堅による国際化リーダーシップに向けて」資料 (河原塚)
haraduka
0
500
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
3
1.3k
RSJ2023「基盤モデルの実ロボット応用」チュートリアル1(既存の基盤モデルを実ロボットに応用する方法)
haraduka
5
2.3k
Featured
See All Featured
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.1k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.7k
A better future with KSS
kneath
239
17k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Scaling GitHub
holman
463
140k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.5k
Agile that works and the tools we love
rasmusluckow
330
21k
Building Applications with DynamoDB
mza
96
6.6k
Being A Developer After 40
akosma
90
590k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.7k
Six Lessons from altMBA
skipperchong
28
4k
Transcript
基盤モデルの実ロボット応用 チュートリアル2025 (1) 河原塚 健人1, 松嶋 達也1, 宮澤 和貴2 (1東京大学,
2大阪大学) 1 2025.09.03 (9:00-9:15) RSJ2025, OS18, 1M1-01
本オーガナイズドセッションの目的 • 基盤モデルによりロボットのシステム構築が圧倒的に簡単に. • 海外の研究に置いて行かれないように最新情報をキャッチアップ • みなで情報を共有して立ち向かう・追い越す 2
基盤モデルの実ロボット応用OS 3 RSJ2023 • 3セッション / 21件の発表 RSJ2024 • 4セッション
/ 27件の発表 RSJ2025 • 6セッション / 29件の発表 / 1件の招待講演 基盤モデルの利用はロボティクスにとってより一般的に (そろそろこのOSを続けるかも考え時?)
招待講演 4 実験自動化における 基盤モデルの活用事例 吉川 成輝先生 (東京科学大学)
本チュートリアルの構成 チュートリアル1 (河原塚) • 基盤モデルの周辺ソフトウェア・ハードウェア チュートリアル2 (松嶋) • ロボット基盤モデルを作る取り組み チュートリアル3
(宮澤) • 基盤モデルのヒューマノイド・AIエージェントへの活用 5
基盤モデル×ロボットの二種類の方向性 6 LLMやVLMの活用 ロボット基盤モデル(VLA) SayCan [M. Ahn+, CoRL2022] RT-X [Open
X-Embodiment, ICRA2024] 今回これらの話はほとんどしません
以下を参照してください 7 チュートリアル1 @日本ロボット学会2023 チュートリアル講演@MIRU2025
VLA Survey Paperを書きました! Vision-Language-Action Models for Robotics: A Review Towards
Real-World Applications 8 Kento Kawaharazuka (UTokyo) Jihoon Oh (UTokyo) Jun Yamada (Oxford) Ingmar Posner (Oxford) Yuke Zhu (UT Austin) https://vla-survey.github.io/
基盤モデルの周辺技術 9 シミュレーション 動画生成 ハードウェア
シミュレーション技術の発展 10
シミュレーション技術の発展 – Isaac Sim 11 [NVIDIA]
SIMPLER • 実世界のデータで学習されたポリシーを, 再現性のある形で評価 するためのシミュレーションベースのベンチマーク • 実世界でのタスク成功率とシミュレーションでの成功率が相関 • 制御ギャップの最適化と視覚ギャップの最適化 •
SAPIEN/Isaac Sim がベース • Google Robotと WidowX-250で 合計12タスク 12 [X. Li+, CoRL2024]
動画生成技術の発展 – Veo 3 13 [Google, 2025]
動画生成技術の発展 – Veo 3 14 [Google, 2025]
UniPi • Video Diffusion Modelベースの, 現在画像とテキストから将来画 像列を出す世界モデル構築 • 生成された画像列を満たすアク ションを生成するInverse
Dynamics Model (IDM)を構築 • これにより画像と言語指示から アクションが生成できる • このWorld Model + IDMの組み合 わせは非常に多くみられる • 他にはHiP, Dreamitate, LUMOS 15 [Y. Du+, NeurIPS2023]
動画生成技術の発展 – NVIDIA COSMOS 16 COSMOS-Transfer COSMOS-Reason COSMOS-Predict Data curation
vide & text text Data generation text, image, video video Data augmentation RGB, Depth, etc. Video
ハードウェアの発展 • SO-101 • オープンハードウェアの台頭 • 誰もが作れる共通プラットフォーム • Leader/Followerで4万円程度 •
ベンチマークとしての利用 • LeRobot • SO-101を利用してデータ収集・ 学習・推論までを簡単に実行可能 • Action Chunking Transformer (ACT) • Diffusion Policy • SmolVLAなど 17
ハードウェアの発展 – UMI • カメラがついたハンド型デバイスでデータ収集 • Visual SLAMから手の軌道を取得, これをもとにポリシーを学習 •
ロボットが同じデバイスを持ち, そのポリシーをもとにタスク実行 18 [C. Chi+, RSS2024]
ハードウェアの発展 – DexUMI • UMIの考え方を五指ハンドに拡張 • 指の接触覚まで取得し再現 19 [M. Xu,
CoRL2025]
ハードウェアの発展 – Project Aria 20 [Meta, arXiv, 2023] • コンパクトなスマートグラスにより,
人間の一人称視点からの行動 を記録, これをVLAの事前学習に利用する • Ego-Exo4D, HOT3D, HD EPIC, Aria Everyday Activitiesなど, 多様なデータセットが公開されている
LAPA • アクションラベルなしの人間のデモンストレーション動画から Latent Actionを抽出, これをVLAの事前学習に利用する • 𝒙𝑡 と𝒙𝑡+𝐻 の特徴量差分を計算しVQ-VAEで𝒛𝑡
にトークン化, 𝒙𝑡 と𝒛𝑡 から 𝒙𝑡+𝐻 を復元するような学習を行い, 𝒛𝑡 を形作る • VLAのreadout tokenからMLPを通して𝑧𝑡 を出力できるように学習 • 事後学習ではMLPだけ挿げ替えてロボットのアクション出力を学習 • 人間の大量のデモンストレーション動画をデータとして利用可能に 21 [S. Ye+, ICLR2025]
まとめと結論 • チュートリアル2025 (1) • 基盤モデルの周辺技術の進化 • シミュレーション・動画生成・ハードウェア • シミュレーション
• さらに精巧で高速なシミュレーション環境. VLAの評価. • 動画生成 • 動画生成に関する基盤モデルを活用したVLAの構築 • ハードウェア • オープンハードウェアとロボット操作デバイス, スマートグラス 22
RTシリーズについて •Data-centric AI本で! • 第5章 ロボットデータ • はじめに • RTシリーズの概要
• 多様なロボット • ロボットにおけるデータ収集 • データセット • データ拡張 • おわりに 23
基盤モデル全般について • ロボットと基盤モデルがどう融合する のか, その全体像を理解いただけます • 8/29に発売しました!買ってね! 24