Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] 状態遷移差分の学習による耐故障ロボットのための強化学習
Search
tt1717
January 26, 2024
Research
0
62
[論文紹介] 状態遷移差分の学習による耐故障ロボットのための強化学習
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
January 26, 2024
Tweet
Share
More Decks by tt1717
See All by tt1717
[論文サーベイ] Survey on Google DeepMind’s Game AI 2
tt1717
0
5
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
17
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
18
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
71
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
60
[論文サーベイ] Survey on Pokemon AI
tt1717
0
99
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
110
[論文サーベイ] Survey on GPT for Games
tt1717
0
71
[論文サーベイ] Survey on World Models for Games
tt1717
0
190
Other Decks in Research
See All in Research
Aurora Serverless からAurora Serverless v2への課題と知見を論文から読み解く/Understanding the challenges and insights of moving from Aurora Serverless to Aurora Serverless v2 from a paper
bootjp
6
1.3k
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
270
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
410
Agentic AI フレームワーク戦略白書 (2025年度版)
mickey_kubo
1
110
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
120
Combining Deep Learning and Street View Imagery to Map Smallholder Crop Types
satai
3
390
令和最新技術で伝統掲示板を再構築: HonoX で作る型安全なスレッドフロート型掲示板 / かろっく@calloc134 - Hono Conference 2025
calloc134
0
460
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
8
2.4k
Nullspace MPC
mizuhoaoki
1
570
AWSの耐久性のあるRedis互換KVSのMemoryDBについての論文を読んでみた
bootjp
1
390
Community Driveプロジェクト(CDPJ)の中間報告
smartfukushilab1
0
110
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
15
18k
Featured
See All Featured
Faster Mobile Websites
deanohume
310
31k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
0
370
Designing for humans not robots
tammielis
254
26k
Evolving SEO for Evolving Search Engines
ryanjones
0
89
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
330
Embracing the Ebb and Flow
colly
88
4.9k
Producing Creativity
orderedlist
PRO
348
40k
First, design no harm
axbom
PRO
1
1.1k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
990
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
270
Building the Perfect Custom Keyboard
takai
2
670
Transcript
・walker2Dを使用 ・3通りの訓練で検証 1.正常なロボットのみで訓練 (normal policy) 2.ロボットをランダムに故障させながら訓練 (robust policy) 3.状態遷移の差分を用いて故障させながら訓練 (our
policy) どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・故障度合いが大きいとき,our policyとrubust policyで高い収益を 得られた ・故障度合いが小さいとき,our policyで高い収益を得られた 故障の表現 ・故障する関節をランダムに選択し,関節アクチュエータのトルク に対して,故障係数kをかける ・故障係数kは一様分布U(0.0,2.0)からサンプリングする ・MDPにおける遷移関数に対して,正常時の遷移関数と故障時の遷 移関数の差分を利用して故障度合いを表現する手法を提案 状態遷移差分の学習による耐故障ロボットのための強化学習 (JSAI 2020)大里 虹平, 川本 一彦 https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_4Rin134/_pdf 2024/01/26 論文を表す画像 被引用数:- 1/4
故障の表現 ❏ 正常時の遷移関数Tnormalと故障時の遷移関数Tbrokenが異なることを 利用 ❏ Tnormalと遷移関数Tが等しければ正常,そうでなければ故障とみなす ❏ Stdiff:ロボットの故障度合いを反映したパラメータ ❏ St:t時刻の状態
❏ Stnormal:正常時ロボットを仮定してt時刻の状態 ❏ Tnormalは未知関数なのでニューラルネットワークで表現する ❏ 定常環境でStnormalを収集し,これを教師データとして遷移予測ネッ トワークを訓練する ❏ St^normalとSt^diffは予測値を意味する 2/4
実験結果 ❏ 結果 ❏ 故障度合いが大きいとき,our policyとrobust policyで高い収益 ❏ 故障度合いが小さいとき,our policyで高い収益
3/4 ❏ 実験設定 ❏ 正常なロボットのみで訓練 (normal policy) ❏ ロボットをランダムに故障させな がら訓練 (robust policy) ❏ 状態遷移の差分を用いて故障させ ながら訓練 (our policy) ❏ hip,knee,ankleに対してkを0.25刻 みで故障させて評価する ❏ 各手法に対して3つのシード値で 3200万ステップ訓練する
❏ まとめ ❏ 正常時の遷移関数を学習する ❏ 予測される状態遷移と実際の状態遷移の差分を方策ネットワークに加える ❏ これにより,故障度合いを識別しながら学習する手法を提案 ❏ 提案手法では,正常時および故障時に遷移関数を利用しない方策より高い
収益を獲得した ❏ 感想 ❏ 提案手法の概要とイメージを掴むことができたが,方策ネットワークに入 力される「StとSt^diff」の2つを入力するのをどのように実装しているの か気になる (通常,t時刻に対する状態は1つだけいれる) ❏ 他のロボット (hopper,halfcheetah,ant)による実験でも,同様の結果が得 られるのか気になる ❏ この研究では,オンライン強化学習の設定で行っているが,オフライン強 化学習の設定で行った場合,結果に変化があるのか見てみたい まとめと感想 4/4