Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Forklift Goal Condition Reinforcement Learning ...
Search
takeofuture
May 17, 2026
Technology
85
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Forklift Goal Condition Reinforcement Learning by Gazebo + ROS2 topic
takeofuture
May 17, 2026
More Decks by takeofuture
See All by takeofuture
BLUVIC(SportへのAI活用)ハッカソン発表資料
takeofuture
0
11
ROSAというLLM使ったROSエージェントをおもちゃに実装してみた話
takeofuture
0
220
2025/11/14 ロボセミでの発表資料
takeofuture
0
120
20240827_LLM発表
takeofuture
0
280
Other Decks in Technology
See All in Technology
Agentic Web
dynamis
1
210
NAB Show 2026 動画技術関連レポート / NAB Show 2026 Report
cyberagentdevelopers
PRO
0
190
【Cyber-sec+】経営層を"動かす"ための考え方
hssh2_bin
0
160
自律型AIエージェントは何を破壊するのか
kojira
0
160
Socrates × Looker 〜セマンティックレイヤーで進化するデータ分析エージェント〜
hanon52_
3
2.2k
失敗を経て、Harness Engineering で 大切にしたいことを考える / Learning from Failure: What Matters in Harness Engineering
bitkey
PRO
1
350
エラーバジェットのアラートのタイミングを考える.pdf
kairim0
0
140
作って終わりにしない タイミーのセマンティックレイヤー育成の現在地
chanyou0311
4
2.3k
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
910
日本 Fintech 未来予測レポート 2027〜2028年(オリジナル版)
8maki
0
2.1k
小さくはじめるSLI/SLO ~育てながら組織に定着させる実践知~ / Starting Small with SLI/SLOs: Building Adoption Through Continuous Growth
nari_ex
7
1.9k
200個のGitHubリポジトリを横断調査したかった
icck
0
120
Featured
See All Featured
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.3k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
54k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
201
75k
sira's awesome portfolio website redesign presentation
elsirapls
0
280
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
HDC tutorial
michielstock
2
710
Crafting Experiences
bethany
1
180
Code Reviewing Like a Champion
maltzj
528
40k
A Tale of Four Properties
chriscoyier
163
24k
Being A Developer After 40
akosma
91
590k
Into the Great Unknown - MozCon
thekraken
41
2.6k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
370
Transcript
0 仮想物理シミュレーション環境GAZEBO 強化学習は大変だった。 倉庫での自動運転への応用を夢見て フリーランサー 柴田たけお
興味のある仕事 ▪ 先端技術と情報技術の融合と応用 ▪ データサイエンス ▪ AI(生成AI,分析AI,識別AI), 統計や機械学習 ▪ ロボット、AI支援型CADや部品設計製造
柴田 たけお ▪ 愛知県名古屋市生まれ豊田市育ち ▪ 大学,大学院では地球物理専攻 ▪ 本業ロサンゼルス商社のデータサイエンティスト 個人でAI関連含むプロジェクト多数やったつもり ▪ 愛知県豊田市の空家に年数回滞在(日米2拠点生活) 基本情報 趣味 ▪ キャンプやハイキング ▪ 自転車旅行 ▪ 青春18切符でのんびり列車旅行 ▪ 食べること @takeofuture https://zenn.dev/takeofuture
▪ GAZEBOとは ▪ 強化学習とは ▪ 環境や物体を定義 ▪ コマンド(テレオペ)でマニュアル操作デモ ▪ 強化学習方針(Phase別の報酬設計と制約)
▪ 1地点目標の強化学習の様子 ▪ 目標条件付き強化学習: 通路1(AISLE-1)の全てのBIN(仕切り)で ▪ 目標条件付き強化学習: 全通路、全仕切りで ▪ 目標条件付き強化学習: 全通路、全棚(4つの高さ)で ▪ 動的位置へのへの強化学習へ! 目次
GAZEBOとは 物理エンジンを搭載したシミュレータ • ライセンス形態 :オープンソース。Gazebo Sim関連ライブラリは主に Apache License 2.0。 •
物理エンジン :現在のGazebo Simは標準で DART を使用。Gazebo Physicsの抽象レイヤーにより、他の物理エンジンもプラグインとして切替・追加可能。 • ROS 2連携:ros_gz_bridge により、ROS 2とGazebo間でtopic/serviceを橋渡しでき、joint state、センサー情報、制御コマンドなどを相互にやり取りできる。 • 用途:実機を使う前に、ロボットの移動・衝突・センサー・制御を仮想環境で検証できる。 👉完全仮想の世界と現実世界のギャップを埋める! 仮想世界 シミュレータ 厳しい現実
強化学習(RL)とは 強化学習の教科書でよくつかわれるグリッド世界の例 グリッドは環境 エージェントはネズミくん、グリッドのことは知らない 目隠しして進むイメージ 行動パターンは左右上下へすすむ (右と上だけでもいい) 報酬が最高になるようにゴールに進むよう 報酬やペナルティーを設計して自律的に最適な方法を 自律的学習するAIの手法の一種
👉最初は行動をランダムに選択するが報酬をもらったりペ ナルティをくらうことで学び報酬最大化を得るようになること が知られている。学習が進むに冒険とグリーディーな最適方 法を一定確率で切り分けて局所最適化しないような工夫もさ れている。
環境(WORLD)や物体(LINK)を定義 倉庫の中でフォークリフト(運搬車)が走り回ることを想定、 今回は正しい位置へ移動して正しい高さにフォークを上げ下げすることを目標に強化学習を実施 環境設定手順 https://zenn.dev/takeofuture/articles/e538b136f7c76f 動かす物体の設定手順 https://zenn.dev/takeofuture/articles/3dbd21341cc559
コマンド(テレオペ)でマニュアル操作デモ (1/2) https://youtu.be/QrG-AIYCT8E
コマンド(テレオペ)でマニュアル操作デモ (2/2) https://youtu.be/Vld0L7_i6r4
強化学習方針(Phase別の報酬設計と制約)
1地点目標の強化学習の様子(学習開始直後)-8倍速 https://youtu.be/h8_ik2MMa1Q
1地点目標の強化学習の様子(12時間後) -8倍速 https://youtu.be/ryuGt80PJNQ
1地点目標の強化学習の様子(18時間後) -8倍速 https://youtu.be/h35cJJO35sY
目標条件付き強化学習: 通路1(AISLE-1)の全てのBIN(仕切り)(x12倍速) https://youtu.be/PHuq5DijnAs
目標条件付き強化学習: 全通路、全仕切りで(x12倍速) https://youtu.be/4-ufc__PxLg
目標条件付き強化学習: 全通路、全棚 (16倍速)-学習18H https://youtu.be/Q725HpHPk5Q
https://youtu.be/lkYCmgHFg6Y 目標条件付き強化学習: 全通路、全棚 (16倍速)-学習36H
シミュレータの限界 ← GAZEBOで使用できる物理特性 GAZEBO(おそらくほかのシミュレータでも) ↓ 表現が難しい特性(特に材料特性) 🤔仮想と現実の間のGAPは若干うめられるがそれでも現実世界にはほど遠い 例:形状は同じでも材料の違いにより挙動の違いを表現が難しい。少なくともGAZEBOでは
まとめ やっぱり強化学習は結構使える! GAZEBOの衝突センサがあまり機能しなかった(衝突は座標位置で判定) でも報酬をどう定義してやるかが大事、今回は完全なEND2ENDの強化学習ではない 人間の経験などの報酬関数への反映はまだまだ必要だと感じた 列や仕切りの数が変わっても少しの継続学習で使えそう、一方棚の数の増大は初期の学習を 大きく崩す 実世界の応用にはまだまだ遠い道のり 👉台車をもっと精密に作る必要あり(重さ、摩擦係数、形状、重心への配慮,CADの利用が有力) 👉棚をもっと精密に作る必要(これもCADの利用が王道)
👉初期開始位置も動的にできるか 👉LIDAR、カメラやセンサーのデバッグ必要 *まだ途中でしか投稿できてませんが、続きもまとめてコードも含めてブログに投稿予定です zenn.dev/takeofuture