Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習
Search
tt1717
January 26, 2024
Research
0
68
[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
January 26, 2024
Tweet
Share
More Decks by tt1717
See All by tt1717
[論文サーベイ] Survey on Pokemon AI
tt1717
0
26
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
50
[論文サーベイ] Survey on GPT for Games
tt1717
0
48
[論文サーベイ] Survey on World Models for Games
tt1717
0
93
[論文サーベイ] Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari Tasks
tt1717
0
53
[論文サーベイ] Survey on Visualization in Deep Reinforcement Learning of Game Tasks 2
tt1717
0
52
[論文サーベイ] Survey on VLM and Reinforcement Learning in Game Tasks (Minecraft)
tt1717
0
100
[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale
tt1717
0
110
[論文紹介] Chip Placement with Deep Reinforcement Learning
tt1717
0
66
Other Decks in Research
See All in Research
大規模言語モデルを用いたニュースデータのセンチメント判定モデルの開発および実体経済センチメントインデックスの構成
nomamist
1
180
Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery
satai
3
310
学生向けアンケート<データサイエンティストについて>
datascientistsociety
PRO
0
1.2k
小ねぎ調製位置検出のためのインスタンスセグメンテーション
takuto_andtt
0
140
Sosiaalisen median katsaus 03/2025 + tekoäly
hponka
0
950
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
satai
3
200
地理空間情報と自然言語処理:「地球の歩き方旅行記データセット」の高付加価値化を通じて
hiroki13
1
240
eAI (Engineerable AI) プロジェクトの全体像 / Overview of eAI Project
ishikawafyu
0
460
ことばの意味を計算するしくみ
verypluming
11
2.4k
博士論文公聴会: Scaling Telemetry Workloads in Cloud Applications: Techniques for Instrumentation, Storage, and Mining / PhD Defence
yuukit
1
130
Mathematics in the Age of AI and the 4 Generation University
hachama
0
150
大規模日本語VLM Asagi-VLMにおける合成データセットの構築とモデル実装
kuehara
5
2.1k
Featured
See All Featured
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
710
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.5k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Documentation Writing (for coders)
carmenintech
71
4.8k
Building an army of robots
kneath
305
45k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
5
610
How GitHub (no longer) Works
holman
314
140k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
Making Projects Easy
brettharned
116
6.2k
Why You Should Never Use an ORM
jnunemaker
PRO
56
9.4k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
105
19k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・ベースラインと比較して独自の報酬関数の設計により,k=0.9 (ほ んの少しだけ故障)の場合でベースラインを超えた ・antで実験した ・5つのseed値を使って,plain環境,broken環境で各100エピソー ド試行させた
・歩行タスクに対して,報酬関数を設計した ・次のスライドで詳細を説明 ・antに対して物理パラメータ (質量や摩擦)のランダム化によって故 障状態を作成 ・故障係数kを0~1の範囲で設定してPPOで学習させた ・提案手法では,k=0.9で故障による変化にも対応できていることを 示した 物理パラメータのランダム化による耐故障ロボットのための強化学習 (JSAI 2020)岡本 航昇, 川本 一彦 https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_3Rin402/_pdf 2024/01/26 論文を表す画像 被引用数:- 1/5
故障の表現 ❏ 故障は関節アクチュエータを制限することで表現 ❏ a’t:故障状態 ❏ k:[0,1]の範囲で調整する故障係数 ❏ at:t時刻でのアクチュエータの行動 (アクチュエータの出力値)
❏ 各トレーニングエピソード開始時にantの4本の脚からランダムに1本を 故障させる 2/5
報酬関数 ❏ 報酬 ❏ Rf (forward reward):x軸方向の変位が大きいほど大きな値となる報酬 ❏ Rs (survive
reward):1ステップ生存したら,無条件で与えられる報酬 ❏ Cctrl (control cost):1ステップでの行動が複雑になるほど大きくなるコスト ❏ Ccontact (contact cost):地面との接触力が大きいほど大きな値となるコスト ❏ 報酬設計の意図 ❏ できるだけ転ばずにx軸方向に歩行するように期待して設計 3/5
実験結果 ❏ 結果 ❏ K=0.9で故障させることでplain環境 ,broken環境の両方で平均報酬が向 上した ❏ 故障によって転倒していたベースラ イン手法に対して,転倒することな
く歩行する制御を獲得した ❏ k=0.7より小さくするとplain環境 ,broken環境の両方で平均報酬が低 下した ❏ これは,故障させすぎると歩行動作 を学習すること自体が困難になるこ とを示唆している 4/5 ※kの値を[0,1]の範囲でランダム化しながらトレーニング しても平均報酬が低下する結果となった
まとめと感想 ❏ まとめ ❏ 物理パラメータのランダム化を導入し,故障変化にロバストな方策獲得に 成功した ❏ k<0.7の範囲で,歩行動作に悪影響がでるため,ランダム化の範囲が重要 である ❏
ant特有の値なのか,それ以外のwalker2Dやhopperの場合でどうなるのか を実験する必要がある ❏ アクチュエータの故障に対する評価のみを行っているが,脚がとれるなど のシチュエーションで実験する必要がある ❏ 感想 ❏ 2足歩行の「walker2D or halfcheetah」,1足歩行の「hopper」で実験す るとどうなるか気になる ❏ 予想では,hopperだと1つの関節アクチュエータに依存するロボット環境 のため学習が難しくなるかもしれない? ❏ 報酬関数の設計を「物理法則によって理論的に導出」したのか,「実験で 試行錯誤して関数を設定」したのかが気になる 5/5