Forklift Goal Condition Reinforcement Learning by Gazebo + ROS2 topic

0 仮想物理シミュレーション環境GAZEBO 強化学習は大変だった。倉庫での自動運転への応用を夢見てフリーランサー　柴田たけお

興味のある仕事 ▪ 先端技術と情報技術の融合と応用 ▪ データサイエンス ▪ AI（生成AI,分析AI,識別AI), 統計や機械学習 ▪ ロボット、AI支援型CADや部品設計製造
柴田　たけお ▪ 愛知県名古屋市生まれ豊田市育ち ▪ 大学,大学院では地球物理専攻 ▪ 本業ロサンゼルス商社のデータサイエンティスト個人でAI関連含むプロジェクト多数やったつもり ▪ 愛知県豊田市の空家に年数回滞在(日米2拠点生活) 基本情報趣味 ▪ キャンプやハイキング ▪ 自転車旅行 ▪ 青春１８切符でのんびり列車旅行 ▪ 食べること @takeofuture https://zenn.dev/takeofuture

▪ GAZEBOとは ▪ 強化学習とは ▪ 環境や物体を定義 ▪ コマンド(テレオペ)でマニュアル操作デモ ▪ 強化学習方針(Phase別の報酬設計と制約)
▪ １地点目標の強化学習の様子 ▪ 目標条件付き強化学習: 通路1(AISLE-1)の全てのBIN(仕切り)で ▪ 目標条件付き強化学習: 全通路、全仕切りで ▪ 目標条件付き強化学習: 全通路、全棚(４つの高さ)で ▪ 動的位置へのへの強化学習へ！目次

GAZEBOとは物理エンジンを搭載したシミュレータ • ライセンス形態：オープンソース。Gazebo Sim関連ライブラリは主に Apache License 2.0。 •
物理エンジン：現在のGazebo Simは標準で DART を使用。Gazebo Physicsの抽象レイヤーにより、他の物理エンジンもプラグインとして切替・追加可能。 • ROS 2連携：ros_gz_bridge により、ROS 2とGazebo間でtopic/serviceを橋渡しでき、joint state、センサー情報、制御コマンドなどを相互にやり取りできる。 • 用途：実機を使う前に、ロボットの移動・衝突・センサー・制御を仮想環境で検証できる。 👉完全仮想の世界と現実世界のギャップを埋める！仮想世界シミュレータ厳しい現実

強化学習(RL)とは強化学習の教科書でよくつかわれるグリッド世界の例グリッドは環境エージェントはネズミくん、グリッドのことは知らない目隠しして進むイメージ行動パターンは左右上下へすすむ（右と上だけでもいい）報酬が最高になるようにゴールに進むよう報酬やペナルティーを設計して自律的に最適な方法を自律的学習するAIの手法の一種
👉最初は行動をランダムに選択するが報酬をもらったりペナルティをくらうことで学び報酬最大化を得るようになることが知られている。学習が進むに冒険とグリーディーな最適方法を一定確率で切り分けて局所最適化しないような工夫もされている。

環境（WORLD）や物体（LINK）を定義倉庫の中でフォークリフト（運搬車）が走り回ることを想定、今回は正しい位置へ移動して正しい高さにフォークを上げ下げすることを目標に強化学習を実施環境設定手順 https://zenn.dev/takeofuture/articles/e538b136f7c76f 動かす物体の設定手順 https://zenn.dev/takeofuture/articles/3dbd21341cc559

コマンド(テレオペ)でマニュアル操作デモ (1/2) https://youtu.be/QrG-AIYCT8E

コマンド(テレオペ)でマニュアル操作デモ (2/2) https://youtu.be/Vld0L7_i6r4

強化学習方針(Phase別の報酬設計と制約)

１地点目標の強化学習の様子(学習開始直後)-８倍速 https://youtu.be/h8_ik2MMa1Q

１地点目標の強化学習の様子(12時間後) -８倍速 https://youtu.be/ryuGt80PJNQ

１地点目標の強化学習の様子(18時間後) -８倍速 https://youtu.be/h35cJJO35sY

目標条件付き強化学習: 通路1(AISLE-1)の全てのBIN(仕切り)(x12倍速) https://youtu.be/PHuq5DijnAs

目標条件付き強化学習: 全通路、全仕切りで(x12倍速) https://youtu.be/4-ufc__PxLg

目標条件付き強化学習: 全通路、全棚 (16倍速)-学習18H https://youtu.be/Q725HpHPk5Q

https://youtu.be/lkYCmgHFg6Y 目標条件付き強化学習: 全通路、全棚 (16倍速)-学習36H

シミュレータの限界 ←　GAZEBOで使用できる物理特性　　　GAZEBO（おそらくほかのシミュレータでも）　　　↓　表現が難しい特性（特に材料特性） 🤔仮想と現実の間のGAPは若干うめられるがそれでも現実世界にはほど遠い　　例：形状は同じでも材料の違いにより挙動の違いを表現が難しい。少なくともGAZEBOでは

まとめやっぱり強化学習は結構使える！ GAZEBOの衝突センサがあまり機能しなかった(衝突は座標位置で判定) でも報酬をどう定義してやるかが大事、今回は完全なEND2ENDの強化学習ではない人間の経験などの報酬関数への反映はまだまだ必要だと感じた列や仕切りの数が変わっても少しの継続学習で使えそう、一方棚の数の増大は初期の学習を大きく崩す実世界の応用にはまだまだ遠い道のり 👉台車をもっと精密に作る必要あり（重さ、摩擦係数、形状、重心への配慮,CADの利用が有力） 👉棚をもっと精密に作る必要（これもCADの利用が王道）
👉初期開始位置も動的にできるか 👉LIDAR、カメラやセンサーのデバッグ必要 *まだ途中でしか投稿できてませんが、続きもまとめてコードも含めてブログに投稿予定です zenn.dev/takeofuture

Forklift Goal Condition Reinforcement Learning ...

Forklift Goal Condition Reinforcement Learning by Gazebo + ROS2 topic

takeofuture

More Decks by takeofuture

Other Decks in Technology

Featured

Transcript