$30 off During Our Annual Pro Sale. View Details »

SSII2023 [OS3] 経験拡張:ロボット学習における仮想経験の⽣成と応⽤

SSII2023 [OS3] 経験拡張:ロボット学習における仮想経験の⽣成と応⽤

堂前幸康(産総研、阪⼤、NAIST)

More Decks by 画像センシングシンポジウム

Other Decks in Science

Transcript

  1. ピッキングの物理は割り切って考えている. 吸着グリッパON→⼀番近くの物体をくっつける. タスクのAccuracyは46-60%程度. UniPi: Learning universal policies via text-guided video

    generation – Google AI Blog (googleblog.com) 指⽰テキストと画像から,ロボットが指⽰タスクをおこなう動画を⽣成. ⽣成した動画から逆運動学を解く試み. 世界モデルが⽣成した仮想経験上でロボットが振る舞う. Pre-trainingにはテキスト・視覚情報約5億ペアを利⽤. Fine-tuningはロボットに特化した7200個のテキスト・動画ペア. 拡散モデル(動画⽣成)を下流タスク(ロボ)に応⽤.
  2. 基盤モデルx ロボティクスの現状 • WEBから得られる情報だけでロボットを制御する試み データ収集コストの⾯で理にかなっている. • ⾝体性やダイナミクスが必ずしも⼗分には考慮されていない 例えば⼒,物理的接触・衝突,摩擦,重⼒など(23年4⽉時点). • しかしすごい

    例えば多種センサ併⽤だけでも難しいタスクができるだろう. • ダイナミクスに関するデータ収集がさらなる鍵 シミュレーションなどの簡易なデータ収集⽅法がますます重要. どのように経験を⽣成し,拡張し,学習に応⽤するか.
  3. 仮想経験による4⾜歩⾏の習得 J. Lee, J. Hwangbo, L. Wellhausen, V. Koltun, and

    M. Hutter, “Learning Quadrupedal Locomotion over Challenging Terrain,” Science Robotics, vol. 5, no. 47, 2020.
  4. ①システム同定 (System Identification) ②ドメイン適応 (Domain Adaptation) SimとRealを⽠⼆つに. ・正確な物理システム,数学モデル ・正確なシミュレーション(nVidiaの未来の⼀つ) ・(現実環境を単純化しSimに近づける)

    SimとRealのデータ分布を近づける. ・マッピング(simデータ→realデータ変換) ・正則化 ・ドメイン混合(中間ドメインの⽣成) ・敵対的ドメイン適応 ・Real2Sim2Real ③ドメイン乱択化 (Domain Randomization) Simのデータ分布を広げてRealを包含する. Realのデータ分布知識不要(あるにこしたことはない). ・⼀様乱拓化 ・カリキュラム設計(ガイド付き.徐々に分布を絞る)
  5. “⾒え”の乱拓化 レンダリングを⼀様にランダム化. 実世界の視覚的変動にロバストに対処. 積み⽊のピッキングを実現[1]. [1] Domain randomization for transferring deep

    neural networks from simulation to the world, J. Tobin, et, el., IROS2017 [2] SimNet: Enabling Robust Unkown Object Manipulation from Pure Synthetic Data via Stereo, M. Laskey, B. Thananjeyan, et. al., CoRL, 2021. レンダリングを⼀様にランダム化. あえてロークオリティーなレンダリングを⼤量に⽣成. 品質でなくデータ量で汎化性を獲得. ロークオリティーであれば⼤量データ⽣成も低コスト[2]. 家庭内物品のモバイルマニピュレーションを実現. 座標,形状,対象・環境の⾊・テクスチャ マテリアル,照明条件,画像ノイズ, カメラパラメタなどを乱拓化.
  6. 数式による物体形状の乱択化 : Initial point : Transformed point : Point movement

    3D fractal model Variance check Ground truth generation N iteration Alignment 3D bounding box & Centroid 3D fractal scene generation 3D IFS parameter setting & Affine transform x y z Intra-category augmentation !! = $" %" &" '" (" )" *" ℎ" ," !!#$ + ." /" 0" !! = −0.40, (! = −0.61, +! = 0.72, /! = −0.19, 1! = −0.20, 2! = −0.22, 3! = 0.96, ℎ! = −0.84, 6! = −0.53, 9! = −0.48, :! = −0.79, ;! = 0.83 1 ( . = 1,2 … 1) After M categories defined Category 1 ••• Category M-2 Category M-1 Category M Category 2 Category 3 Fractal category definition Main: Category M Noise: Category 2 Instance augment フラクタルにより3D形状をランダム⽣成しシーンに配置. 少数データをプリトレーニングに活⽤すると3D点群からの 物体検出(by VoteNet)性能が向上. Ryosuke Yamada, et el., “Point Cloud Pre-training with Natural 3D Structure”, CVPR 2022
  7. 数式による物体形状の乱択化 Depth image Grasp-FractalDB Pre-training Dex-Net 2.0 Fine-tuning GQ-CNN Grasping

    experiments Estimate grasp quality for parallel jaw gripper Before(far from CoM) After (more robust grasp) with Grasp-FractalDB Grasp-FractalDB Train to predict the centroid of the fractal Dex-Net 2.0 Grasp-FractalDB (Ours) ⼭⽥,他,物体把持の視覚能⼒を⾃動獲得するロボット,SSII2022 フラクタルで⽣成した物体DBで把持プリトレーニング
  8. 乳幼児のランダム動作をもとにしたダイナミクス獲得 事前学習と擬似リハーサルに利⽤すると タスク実⾏能⼒が向上. K. Kase, et el., “Robot Task Learning

    With Motor Babbling Using Pseudo Rehearsal”, RA-L, 2022. ・⼈間の乳幼児 ⼿⾜をランダムに動かし⾝体性を獲得. ・モーターバブリング ロボットにランダムな制御指令を与える. タスク依存性のないダイナミクス獲得⼿段. Target Task !! "! # !!"# Dense "!"# Motor Command Record as Pseudo Babbling Dataset !! !!"# LSTM Random !! !!"# Update StepⅠ. Pre-Training StepⅡ. Rehearsal StepⅢ. Simultaneous Training Pseudo Babbling Pseudo Babbling Babbling ℎ′ ℎ′ ℎ′ LSTM LSTM
  9. カリキュラム学習 ・問題の難易度を徐々に⾼めながら学習をすることで, (強化)学習の効率と,実⾏パフォーマンスを向上させる考え⽅ 図出典:J. Lee, J. Hwangbo, L. Wellhausen, V.

    Koltun, and M. Hutter, “Learning Quadrupedal Locomotion over Challenging Terrain,” Science Robotics, vol. 5, no. 47, 2020. ・「現実とは似つかない理想的なデータ分布」で基礎を訓練した後に, 「段階的に現実に近いデータ分布」に適応していくことになる -ドメイン乱択化とドメイン適応を両⽴させるイメージ -カリキュラム設計者のスキルに依存 例1:全てのセンサ情報が完璧でノイズゼロ → 段階的にノイズを付加 例2:環境を単純なものから複雑なものに徐々に変化(下図)
  10. ペグインホールのゼロショット転移 “動き”の乱択化を加えながら 100,000 stepsの学習. Zero-shot World Robot SummitのAssembly taskで使われた ペグインホールタスク.複数種類の対象物に対して,

    ゼロショットでサブミリオーダのはめ合いを実現. 初期位置誤差, 物体形状種類, クリアランスなどを 段階的に複雑化していく カリキュラムを設計. カリキュラム有無で累計報酬が⼤きく変化. C. Bertran, et el., “Accelerating Robot Learning of Contact-Rich Manipulations: A Curriculum Learning Study”, arXiv, 2022. C. Bertran, et el., “Learning force control for contact-rich manipulation tasks with rigid position-controlled robots”, RA-L, 2020.
  11. 経験拡張 18 • 機械学習のデータセットのサイズと多様性を増やす取り組みは, ⼀般的にデータ拡張(Data augmentation)と⾔われる • これまで⾒てきたように,ロボット学習においては “データ”というより, いわば“経験”たる⾏為の獲得が重要

    • つまりデータ拡張ではなく経験拡張(Experience augmentation) • ここまで紹介した各種⽅法もその⼀種と捉えることができる • また重要なことに,Simは単にデータ拡張をするだけでなく, 現実で得難い経験を⽣成できる(ノイズゼロ,⾒えない⼒…etc) • Sim上での経験を現実に似せることに固執するのではなく, ⾮現実の経験で現実を拡張する点に醍醐味があるのではないか
  12. クロスモーダルな表現の学習 Depth image Stiffness map Segmentation image Target stiffness Hand

    Model 4DoF grasp pose Stiffness estimation Grasp pose detection Train ⨂ ⨂ = = ∩ シミュレーション上で,現実では得難い⾒えと柔らかさの関係を学習. K. Makihara, et. al., “Grasp pose detection for deformable daily items by pix2stiffness estimation”, Advanced Robotics, 2022.
  13. 推論なし 推論あり ⾒えと柔らかさの関係から,ロボットが 「周辺の柔らかい物体を潰して掴む」 ピッキング⽅法を会得. K. Makihara, et. al., “Grasp

    pose detection for deformable daily items by pix2stiffness estimation”, Advanced Robotics, 2022. Simからrealへのゼロショット転移
  14. ⾒えからの⼒分布の推定 simulation • Kernel Density Estimation • moving average on

    time • Domain Randomization ResNet50 Encoder Decoder ResNet based Decoder Forcemap (contact force label) 現実では得難い,⾒えと物体間の⼒分布の 関係を,ドメインランダマイゼーションで ⽣成したデータセットをもとに,Enc-Dec モデルで学習. Force Map: Learning to Predict Contact Force Distribution from Vision (ryhanai.github.io)
  15. unknown objects dynamic scene Simからrealへのゼロショット転移 Force Map: Learning to Predict

    Contact Force Distribution from Vision (ryhanai.github.io) ⼈間が視覚からダイナミクスを推定するときのような,おおまかな⼒の分布が把握できている.
  16. ご清聴ありがとうございました. Special thanks to Automaton Research Team | ART, AIST

    Ryo Hanai Ixchel Ramirez Koshi Makihara Tetsuya Ogata Kensuke Harada Hirokatsu Kataoka Ryosuke Yamada Kei Kase