Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
Search
Kento Kawaharazuka
September 06, 2024
Research
3
770
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
既存の基盤モデルを実ロボットに応用する方法について
Kento Kawaharazuka
September 06, 2024
Tweet
Share
More Decks by Kento Kawaharazuka
See All by Kento Kawaharazuka
RSJ2024学術ランチョンセミナー「若手・中堅による国際化リーダーシップに向けて」資料 (河原塚)
haraduka
0
270
RSJ2023「基盤モデルの実ロボット応用」チュートリアル1(既存の基盤モデルを実ロボットに応用する方法)
haraduka
4
1.8k
Other Decks in Research
See All in Research
PetiteSRE_GenAIEraにおけるインフラのあり方観察
ichichi
0
250
「熊本県内バス・電車無料デー」の振り返りとその後の展開@土木計画学SS:成功失敗事例に学ぶ公共交通運賃設定
trafficbrain
0
160
Weekly AI Agents News! 11月号 論文のアーカイブ
masatoto
0
280
NeurIPS 2024 参加報告 & 論文紹介 (SACPO, Ctrl-G)
reisato12345
0
270
Weekly AI Agents News! 12月号 論文のアーカイブ
masatoto
0
150
CoRL2024サーベイ
rpc
1
1.4k
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
230
Building Height Estimation Using Shadow Length in Satellite Imagery
satai
2
100
Weekly AI Agents News!
masatoto
30
49k
EBPMにおける生成AI活用について
daimoriwaki
0
260
[輪講] Transformer Layers as Painters
nk35jk
4
620
アプリケーションから知るモデルマージ
maguro27
0
240
Featured
See All Featured
Site-Speed That Sticks
csswizardry
3
310
Bash Introduction
62gerente
610
210k
Fashionably flexible responsive web design (full day workshop)
malarkey
406
66k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
GitHub's CSS Performance
jonrohan
1030
460k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
113
50k
Git: the NoSQL Database
bkeepers
PRO
427
64k
No one is an island. Learnings from fostering a developers community.
thoeni
20
3.1k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
How GitHub (no longer) Works
holman
312
140k
Producing Creativity
orderedlist
PRO
343
39k
Transcript
1 2022.09.06 RSJ2024 基盤モデルの実ロボット応用 チュートリアルA 河原塚健人1, 松嶋達也1, 宮澤和貴2 (1東京大学, 2大阪大学)
本オーガナイズドセッションの目的 • ロボットのシステム構築が圧倒的に簡単に. 波に乗るしかない. • 海外の研究に置いて行かれないように最新情報をキャッチアップ • 国内で最新情報を共有して立ち向かう・追い越す 2
オーガナイザー 3 河原塚 健人 東京大学 松嶋 達也 東京大学 宮澤 和貴
大阪大学
これまでの活動(1) • 特集号「Real-World Robot Applications of Foundation Models」 @Advanced Robotics
4 • Survey Paper • NLP2024併設ワークショップ: 大規模言語モデルの実世界応用
これまでの活動(2) 5 • Cooking Robotics Workshop @ICRA2024
基盤モデルの実ロボット応用OS 6 RSJ2023 • 3セッション / 21件の発表 • 7機関: 東大,
慶應, 早稲田, 名工大, 立命館, 金沢大, 中部大 RSJ2024 • 4セッション / 27件の発表 • 20機関: 東大, 慶應, 早稲田, 阪大, 京大, Sony, RIKEN AIP, ATR, NII, TCRDL, 産総研, 名工大, 立命館, 創価大, トヨタ自動車, 富士通, 都 立大, 金沢工業, 中部大, ドワンゴ 様々な機関が基盤モデルを使うようになってきた
本チュートリアルの構成 チュートリアルA (河原塚) • 既存の基盤モデルの実ロボット活用例 チュートリアルB (松嶋) • ロボット基盤モデルを作る取り組み チュートリアルC
(宮澤) • 基盤モデルの対話活用について 7 大きな進展はない かなり進展がある 去年の資料 「基盤モデルの実ロボット応用」チュートリアル 去年の資料 「基盤モデルの実ロボット応用」チュートリアル 新規
活用可能な基盤モデルの種類@RSJ2023 8 Visual Prompting 全体的な性能アップ
活用可能な基盤モデルの種類(1) 9 GPT-4o Imagen3 全体的な性能アップ SAM 2
活用可能な基盤モデルの種類(2) 10 PIVOT [S. Nasiriany+, 2024] MOKA [F. Liu+, 2024]
Visual Prompting
活用可能な基盤モデルの種類(3) 11 Depth Anything [L. Yang+, 2024] FoundationPose [B. Wen+,
2024] MeshAnything [Y. Chen+, 2024] 4M [D. Mizrahi+, 2024] URDFormer [Z. Chen+, 2024] 多様なモダリティ
基盤モデルのロボット活用方法@RSJ2023 12
基盤モデルのロボット活用方法@RSJ2023 13 1. CLIPやDeticで認識/LLMで動作計画 2. Affordance/Rewardを構築して強化学習/MPC 3. マップやシーングラフを構築して動作計画 4. センサと制御入力の関係をデータ拡張/学習
チュートリアルBに譲る
基盤モデルのロボット活用方法(1) 14 Eureka [J. Ma+, 2023]
基盤モデルのロボット活用方法(1) 15 Eureka [J. Ma+, 2023]
基盤モデルのロボット活用方法(2) 16 DrEureka [J. Ma+, 2024]
我々の事例@2024 18
我々の事例 – VLMによる食材状態認識 19 [K. Kawaharazuka+, RA-L2024]
我々の事例 – LLM/VLMによる料理ロボット 20 [N. Kanazawa+, Advanced Robotics]
我々の事例 – LLMとPDDLの融合 • LLMとVLMでPDDL(Planning Domain Definition Language)を記述 21 [K.
Shirai+, ICRA2024]
我々の事例 – VLMと動作指令の統合 22 [K. Kawaharazuka+, Humanoids2023]
我々の事例 – 事前知識無しのナビゲーション 23 [K. Kawaharazuka+, Advanced Robotics]
まとめ • チュートリアルA • 既存の基盤モデルの実ロボット活用例 • 一方でRSJ2023からそこまで大きな進展はない • 活用可能な基盤モデルの種類 •
各基盤モデルの性能向上 / よりマルチモーダルへ • 基盤モデルの活用方法 • 基盤モデル×強化学習 / ロボット基盤モデル • 我々の研究事例 • 連続状態認識 / レシピ解釈 / PDDL / 運動指令との融合/ ナビゲーション 25