論文読み勉強会　RoboGen

論文読み勉強会 Robogen 2025.4.10 @natsutan 1

2 RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning
via Generative Simulation ロボットの自動学習の為に、生成モデルを使って、無限のデータを生成するために～ https://arxiv.org/abs/2311.01455

3 Abstract RobotGenは生成シミュレーションを使って、自動で学習する生成ロボットエージェント。基盤モデルと生成モデルを使う。ポリシーや低レベルなアクションではなく、多様化したタスク、シーン、教師情報を自動生成する。この手法が、ロボットにPropose-generate-learnサイクルを与える。・Propose:エージェントが興味深いタスクとスキルを開発する。・Generate:アセットを適切に配置して、シミュレーション環境を作る・Learn:タスクをサブタスクに分割し、最適な学習アプローチを選び、必要な教師情報を作り、スキルを取得するためのポリシーを学ぶ。
エージェント、タスク、シーン、ポリシーは強化学習の用語

4 Introduction 1. シミュレーション実機より早く並列化して、探索（学習）を行える。リアルに合わせるためには非常に手間がかかる。Sim環境と学習環境（Loss関数とか）。 2．生成シミュレーションの提案（2023年）シミュレーション環境を自動生成する。 Propose-generate-learnサイクル。ダイナミクス（動力学）、アクチュエーション、物理に関する学習データが無かった。
3．LLM LLMからポリシーや低レベルなアクションを直接出力させる方法があるが、この手法ではそうではない。 LLMからオブジェクトの配置、意味、タスクの知識を取り出し、シミュレーション環境を作る。さらに物理エンジンの補助を加えることで、ロボットが物理的な相互作用を理解し、多彩なスキルを取得する。 4．結果 Robogenが自動生成するタスクとスキルの多様性は、少しのプロンプトとin-context learning exampleで、人間が作ったデータセットを超える。教師ありの正解データ

5 タスクの例 Figure1

6 Related Work 1. シミュレーターを使ったロボットのスキルラーニング 2．シミュレーション環境のスケーリング人間が正解値を作って、強化学習をする。 3．基盤モデル、生成モデル Gensim, Gen2sim,
Python code生成 OPTIMUS system. Guided Imitation of Task and Motion Planning

7 RoboGen Pipeline

8 RoboGen Pipeline

9 Task Proposal 初期化: 特定のロボのタイプと、定義済みのpoolからオブジェクトをランダムにサンプリングする。これらがタスクの提案を生成するためにLLMの入力になる。seed的な扱い。もう一つは、定義済みのタスクを使って初期化する。 Task: Pick up
the hanger and place it on the clothing rack Objects: a cloth hanger, a clothing rack Task: Place the dishes and cutlery on the table in preparation for a meal Objects: a dish plate, a fork, a spoon, a steak knife LLMのバックエンドにはGPT-4を使っている。別のモデルへのUpgradeは可能。

10 オブジェクトのデータ PartNetMoblity https://sapien.ucsd.edu/browse RLBench https://github.com/stepjam/RLBench/tree/master https://github.com/stepjam/PyRep/tree/master

11 Task Proposal ロボットを選ぶオブジェクトをランダムにサンプリングするオブジェクトの情報をプロンプトに与える。 1．オブジェクトのカテゴリー 2．URDF 3..可動部の情報
（例：電子レンジなら、どのリンクがドアか） LLMの出力 1．タスク名 2．タスクの説明 3. タスクを実行するための追加情報 4．オブジェクトのジョイントや可動の情報

12 Task Proposal 電子レンジがオブジェクトとしてサンプルされたときのLLMの出力例タスク名: heat up a bowl of
soup タスクの説明: The robot arm places a bowl of soup inside the microwave, closes the door and sets the microwave timer for an appropriate heating duration（日本語訳:ロボットアームがスープの入ったボウルを電子レンジ内に入れ、ドアを閉め、適切な加熱時間にタイマーを設定する）追加情報: A bowl of soup オブジェクトの情報: joint 0 (for opening the microwave door), joint 1 (for setting the timer), link 0 (the door), link 1 (the timer knob)

13 RoboGen Pipeline

14 Scene Generation LLMが生成したタスクから、対応するシーンを生成する。４つの情報が必要・シーンで使う関連アセット・アセットの大きさ・アセットの初期コンフィグレーション・シーンの初期コンフィグレーション

15 Scene Generation シーンで使う関連アセット GPT-4に、オブジェクトの名前や詳細の追加の問い合わせをする。・部屋のマット・テーブルの上の明かり・本・椅子こでObjaverseを使う。800kを超えるオブジェクト。
https://github.com/allenai/objaverse-xl Gemini-Pro（VLM）で、アセットが適切か確認する。剛体はこれでうまくいくソフトロボティクスの場合は、Midjourneyでテキストから画像を生成、Zero-1-to-3で画像をメッシュにする。剛体ソフトロボティクス

16 Scene Generation 生成されたシーンの検証 Objaverseから、オブジェクトを取り出した後、Gemini-Pro（Vision-Language-Model）で画像の説明をさせる。そのCaptionと、Taskの情報をGPT-4に入力し、オブジェクトがふさわしいかどうか判断する。 Gemini-Pro VLM GPT-4 Task
Proposal Caption クラシックな装飾が施された木製の背もたれ付き椅子。背面には複雑な彫刻があり、座面は緑色のクッションで覆われている。高級感のあるアンティーク調のデザイン。

17 Scene Generation ソフトロボティクス用のMeshモデルの作り方 MidJourneyに「背景を白にして、正面もしくは上からの画像」というプロンプトを与える。四枚生成されるのでランダムに一枚を選ぶ。生成された画像をZero-1-to-3にいれて、3Dオブジェクトにする。それをさらにDMTNetを使って形を良くする DMTNet https://research.nvidia.com/labs/toronto-ai/DMTet/
変換例

18 Scene Generation アセットのサイズ: 実物に近いサイズであるか、タスクが実行可能かをGPT-4に確認する。例:おもちゃを箱に入れるなら、箱よりおもちゃが小さくないと駄目アセットの初期コンフィグレーション: GPT-4にタスクが実行可能な状態か初期値を確認。例:ドアを開けるタスクであれば、初期状態はドアが閉まっている必要がある。シーンの初期配置:
GPT-4にTask Proposalに基づいた空間的な配置を問い合わせる。例:おもちゃを箱の中に入れるなら、おもちゃは箱の外にないと駄目

19 RoboGen Pipeline

20 Training Supervision Generation 学習を上手く進めるために、RoboGenは最初にGPT-4に計画とそれを分割したサブタスクに分割するように問い合わせる。その次に、そのサブタスクを解くためのアルゴリズムをGPT-4に問い合わせる。アルゴリズムは3つ・強化学習:接触の多いタスク（歩行やオーブンのつまみを回す）に有効・勾配ベースの軌道最適化:ソフトボディの精密動作・アクションプリミティブ＋モーションプランニング
障害物が無いときの軌道生成グリッパーでなく、吸着で把持操作を簡略化している。対象物の1点をランダムにサンプリングし、法線ベクトルを得る。モーションプランニングで法線アプローチを行い、ターゲットに接触するまでEEを進める。法線方向に30mm上までハンドが到着したらgripperでワークをつかむ。強化学習については、GPT-4に報酬関数を作成させる。剛体の操作や移動は、low-level-stateに基づいてシミュレーターAPIで報酬関数を取得するソフトボディに関しては、GPT-4で目標形状のテキストを作り、それをtext-to-3Dモデルで目標のメッシュを作る。現状の形状と目標形状のパーティクル間の距離を報酬関数として使用する。

21 Training Supervision Generation 強化学習の詳細アルゴリズムはSAC（Soft Actor-Critic）使うアクションは6次元・x,y,z 移動の目標位置か変位（Δx,
Δy, Δz）は、 GPT-4は適切な方を提案する。・rx,ry,yz ハンドの回転軌道はOMPLで生成する。（Genesis勉強会を思い出してください） Actor-Critic ①Actorが方策を使って実行する。 ②Criticが環境を観測して、状態と報酬を取得 ③Actorがその状態と報酬から方策を更新ソフトロボットの時は、Adam for gradient-based trajectory optimizationを使う。

22 RoboGen Pipeline

23 Skill Learning これらの情報を使ってシミュレーション環境を構築する。⾧いタスク（long-horizon tasks)は、各サブタスクを8回シミュレーションして一番高い報酬を得た状態を次のサブタスクの初期状態として使う。 Long Horizon Tasks
subtas1 k subtask 2 subtask n ・・・始めのサブタスクを 8回実行する。一番報酬が高い状態を次のサブタスクへ渡す。 x8 x8

24 Skill Learning 設計の選択について・特定のバックエンド（LLM）に依存せず、差しかえ可能にしている・人間が設計した品質的に優れた3次元のアセットよりも、ネット上にある大量の2次元画像を有効利用出来る。・アセットに関しては、意図的に探索と生成の両方をサポートしているフェーズの切れ目を人力でも出来るように設計されてる。これで作業分担が可能になる。例：設定済みのタスク
プロンプトに出力のテンプレートを指定している。そのテンプレートに沿って、人間が中身を書けばここだけ検証できる。

25 LLMのプロンプト例後ろには実際に使われたプロンプトが大量にあるので気になる人は参考にしてください A robotic arm is trying to manipulate
some objects to learn corresponding skills in a simulator. However, the size of the objects might be wrong. Your task is to adjust the size of the objects, such that they match each other when interact with each other; and the size should also match what is commonly seen in everyday life, in household scenarios. Now I will give you the name of the task, the object and their sizes, please correct any unreasonable sizes. Objects are represented using a mesh file, you can think of size as the longest dimension of the object. I will write in the following format: ‘‘‘ Task: task description obj1, mesh, size obj2, mesh, size ‘‘‘ Please reply in the following format: explanations of why some size is not reasonable. ‘‘‘yaml obj1, mesh, corrected_size obj2, mesh, corrected_radius ‘‘‘ Here is an example: Input: ‘‘‘ Task: The robotic arm lowers the toilet seat from an up position to a down position Toilet, mesh, 0.2 ‘‘‘ Output: A toilet is usually 0.6 - 0.8m in its back height, so the size is not reasonable -- it is a bit too small. Below is the corrected size. ‘‘‘yaml Toilet, mesh, 0.7 ‘‘‘

26 さいごにご静聴有り難うございました

論文読み勉強会　RoboGen

論文読み勉強会　RoboGen

Minoru Natsutani

More Decks by Minoru Natsutani

Featured

Transcript