Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Forklift Goal Condition Reinforcement Learning ...
Search
takeofuture
May 17, 2026
Technology
86
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Forklift Goal Condition Reinforcement Learning by Gazebo + ROS2 topic
takeofuture
May 17, 2026
More Decks by takeofuture
See All by takeofuture
BLUVIC(SportへのAI活用)ハッカソン発表資料
takeofuture
0
12
ROSAというLLM使ったROSエージェントをおもちゃに実装してみた話
takeofuture
0
220
2025/11/14 ロボセミでの発表資料
takeofuture
0
120
20240827_LLM発表
takeofuture
0
280
Other Decks in Technology
See All in Technology
【セミナー資料】Claude Code をセキュアに使うための考え方と設定の勘どころ / Claude Code Webinar 20260616
masahirokawahara
1
290
AIっぽい文章を採点して人間らしく直すアプリを作ってみた
yama3133
2
160
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
240
Socrates × Looker 〜セマンティックレイヤーで進化するデータ分析エージェント〜
hanon52_
3
2.3k
AAIFに入ってみた ~内から見えるコミュニティ動向~
sato4
0
210
2026.06.13_AI時代に事業会社が「SIer出身エンジニア」を求める理由 / Why Businesses Seek Engineers with a System Integrator Background in the AI Era
jumtech
0
1.1k
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.9k
SONiCの統計情報を取得したい
sonic
0
160
やさしいA2A入門
minorun365
PRO
12
1.9k
LLMにもCAP定理があるという話
harukasakihara
0
350
フィジカル版Github Onshapeの紹介
shiba_8ro
0
210
2026TECHFRESH畢業分享會 - AI 時代的人生存檔點
line_developers_tw
PRO
0
990
Featured
See All Featured
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
940
[SF Ruby Conf 2025] Rails X
palkan
2
1.1k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
360
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
190
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
160
Stop Working from a Prison Cell
hatefulcrawdad
274
21k
Scaling GitHub
holman
464
140k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
850
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
230
23k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
170
GitHub's CSS Performance
jonrohan
1033
470k
Transcript
0 仮想物理シミュレーション環境GAZEBO 強化学習は大変だった。 倉庫での自動運転への応用を夢見て フリーランサー 柴田たけお
興味のある仕事 ▪ 先端技術と情報技術の融合と応用 ▪ データサイエンス ▪ AI(生成AI,分析AI,識別AI), 統計や機械学習 ▪ ロボット、AI支援型CADや部品設計製造
柴田 たけお ▪ 愛知県名古屋市生まれ豊田市育ち ▪ 大学,大学院では地球物理専攻 ▪ 本業ロサンゼルス商社のデータサイエンティスト 個人でAI関連含むプロジェクト多数やったつもり ▪ 愛知県豊田市の空家に年数回滞在(日米2拠点生活) 基本情報 趣味 ▪ キャンプやハイキング ▪ 自転車旅行 ▪ 青春18切符でのんびり列車旅行 ▪ 食べること @takeofuture https://zenn.dev/takeofuture
▪ GAZEBOとは ▪ 強化学習とは ▪ 環境や物体を定義 ▪ コマンド(テレオペ)でマニュアル操作デモ ▪ 強化学習方針(Phase別の報酬設計と制約)
▪ 1地点目標の強化学習の様子 ▪ 目標条件付き強化学習: 通路1(AISLE-1)の全てのBIN(仕切り)で ▪ 目標条件付き強化学習: 全通路、全仕切りで ▪ 目標条件付き強化学習: 全通路、全棚(4つの高さ)で ▪ 動的位置へのへの強化学習へ! 目次
GAZEBOとは 物理エンジンを搭載したシミュレータ • ライセンス形態 :オープンソース。Gazebo Sim関連ライブラリは主に Apache License 2.0。 •
物理エンジン :現在のGazebo Simは標準で DART を使用。Gazebo Physicsの抽象レイヤーにより、他の物理エンジンもプラグインとして切替・追加可能。 • ROS 2連携:ros_gz_bridge により、ROS 2とGazebo間でtopic/serviceを橋渡しでき、joint state、センサー情報、制御コマンドなどを相互にやり取りできる。 • 用途:実機を使う前に、ロボットの移動・衝突・センサー・制御を仮想環境で検証できる。 👉完全仮想の世界と現実世界のギャップを埋める! 仮想世界 シミュレータ 厳しい現実
強化学習(RL)とは 強化学習の教科書でよくつかわれるグリッド世界の例 グリッドは環境 エージェントはネズミくん、グリッドのことは知らない 目隠しして進むイメージ 行動パターンは左右上下へすすむ (右と上だけでもいい) 報酬が最高になるようにゴールに進むよう 報酬やペナルティーを設計して自律的に最適な方法を 自律的学習するAIの手法の一種
👉最初は行動をランダムに選択するが報酬をもらったりペ ナルティをくらうことで学び報酬最大化を得るようになること が知られている。学習が進むに冒険とグリーディーな最適方 法を一定確率で切り分けて局所最適化しないような工夫もさ れている。
環境(WORLD)や物体(LINK)を定義 倉庫の中でフォークリフト(運搬車)が走り回ることを想定、 今回は正しい位置へ移動して正しい高さにフォークを上げ下げすることを目標に強化学習を実施 環境設定手順 https://zenn.dev/takeofuture/articles/e538b136f7c76f 動かす物体の設定手順 https://zenn.dev/takeofuture/articles/3dbd21341cc559
コマンド(テレオペ)でマニュアル操作デモ (1/2) https://youtu.be/QrG-AIYCT8E
コマンド(テレオペ)でマニュアル操作デモ (2/2) https://youtu.be/Vld0L7_i6r4
強化学習方針(Phase別の報酬設計と制約)
1地点目標の強化学習の様子(学習開始直後)-8倍速 https://youtu.be/h8_ik2MMa1Q
1地点目標の強化学習の様子(12時間後) -8倍速 https://youtu.be/ryuGt80PJNQ
1地点目標の強化学習の様子(18時間後) -8倍速 https://youtu.be/h35cJJO35sY
目標条件付き強化学習: 通路1(AISLE-1)の全てのBIN(仕切り)(x12倍速) https://youtu.be/PHuq5DijnAs
目標条件付き強化学習: 全通路、全仕切りで(x12倍速) https://youtu.be/4-ufc__PxLg
目標条件付き強化学習: 全通路、全棚 (16倍速)-学習18H https://youtu.be/Q725HpHPk5Q
https://youtu.be/lkYCmgHFg6Y 目標条件付き強化学習: 全通路、全棚 (16倍速)-学習36H
シミュレータの限界 ← GAZEBOで使用できる物理特性 GAZEBO(おそらくほかのシミュレータでも) ↓ 表現が難しい特性(特に材料特性) 🤔仮想と現実の間のGAPは若干うめられるがそれでも現実世界にはほど遠い 例:形状は同じでも材料の違いにより挙動の違いを表現が難しい。少なくともGAZEBOでは
まとめ やっぱり強化学習は結構使える! GAZEBOの衝突センサがあまり機能しなかった(衝突は座標位置で判定) でも報酬をどう定義してやるかが大事、今回は完全なEND2ENDの強化学習ではない 人間の経験などの報酬関数への反映はまだまだ必要だと感じた 列や仕切りの数が変わっても少しの継続学習で使えそう、一方棚の数の増大は初期の学習を 大きく崩す 実世界の応用にはまだまだ遠い道のり 👉台車をもっと精密に作る必要あり(重さ、摩擦係数、形状、重心への配慮,CADの利用が有力) 👉棚をもっと精密に作る必要(これもCADの利用が王道)
👉初期開始位置も動的にできるか 👉LIDAR、カメラやセンサーのデバッグ必要 *まだ途中でしか投稿できてませんが、続きもまとめてコードも含めてブログに投稿予定です zenn.dev/takeofuture