Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
これからの強化学習_3.1_3.2
Search
ij_spitz
May 31, 2017
Technology
0
110
これからの強化学習_3.1_3.2
ij_spitz
May 31, 2017
Tweet
Share
More Decks by ij_spitz
See All by ij_spitz
GunosyにおけるABテストの全容
ij_spitz
3
2.2k
プロダクト改善のためのデータ分析入門
ij_spitz
1
82
海外スタートアップにおけるA/Bテスト基盤の紹介
ij_spitz
9
17k
GunosyにおけるABテスト
ij_spitz
1
460
fitbitではじめるオープンデータ
ij_spitz
0
160
食べログデータから見る東新宿と西早稲田のランチ事情
ij_spitz
0
350
Linuxとファイル
ij_spitz
0
88
紳士なおじさんYeomanに学ぶ異性を落とす3つのテクニック
ij_spitz
0
200
Supporter Opinion
ij_spitz
0
61
Other Decks in Technology
See All in Technology
AI自体のOps 〜LLMアプリの運用、AWSサービスとOSSの使い分け〜
minorun365
PRO
10
1.3k
最近のラズピッピいじり / 20250308-rpijam-13th-birthday
akkiesoft
0
130
x86-64 Assembly Essentials
latte72
4
790
Platform Engineeringで クラウドの「楽しくない」を解消しよう
jacopen
4
290
OCI IAM Identity Domains Entra IDとの認証連携設定手順 / Identity Domain Federation settings with Entra ID
oracle4engineer
PRO
1
1.3k
いまからでも遅くない!コンテナでWebアプリを動かしてみよう!コンテナハンズオン編
nomu
0
190
あなたが人生で成功するための5つの普遍的法則 #jawsug #jawsdays2025 / 20250301 HEROZ
yoshidashingo
2
480
20250307_エンジニアじゃないけどAzureはじめてみた
ponponmikankan
2
270
どうすると生き残れないのか/how-not-to-survive
hanhan1978
12
9.2k
開発者のための FinOps/FinOps for Engineers
oracle4engineer
PRO
2
290
株式会社Awarefy(アウェアファイ)会社説明資料 / Awarefy-Company-Deck
awarefy
3
12k
【Snowflake九州ユーザー会#2】BigQueryとSnowflakeを比較してそれぞれの良し悪しを掴む / BigQuery vs Snowflake: Pros & Cons
civitaspo
5
1.6k
Featured
See All Featured
Rails Girls Zürich Keynote
gr2m
94
13k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3k
Producing Creativity
orderedlist
PRO
344
40k
GraphQLの誤解/rethinking-graphql
sonatard
69
10k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
134
33k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
33
2.8k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Making the Leap to Tech Lead
cromwellryan
133
9.1k
How to Think Like a Performance Engineer
csswizardry
22
1.4k
Building Your Own Lightsaber
phodgson
104
6.3k
Transcript
第3章 強化学習の工学応用 3.1・3.2 株式会社Gunosy データ分析部 石塚 淳
2 ©Gunosy Inc. 3.1 高次元・実環境における強化学習 目次 • 3.1.1 最適制御問題 •
3.1.2 時間逆方向の価値観数の伝搬に基づく運動学習 • 3.1.3 時間方向の内部シミュレーション計算を用いた運動学習 • 3.1.4 おわりに
3 ©Gunosy Inc. 3.1 高次元・実環境における強化学習 • コンピュータゲームや囲碁では熟練者を打ち負かす事例が生み出されている ◦ 学習に必要な膨大なサンプルを容易に収集できる •
ヒューマノイドロボットのような多自由度・高次元のシステムが動的に変化する環境におい て自律的に学習し動作するための技術開発 ◦ 学習に必要な大漁のデータを取得することが極めて難しく、実応用への道筋が明らか ではない ▪ 実応用へのアプローチを紹介することが本節の目標
4 ©Gunosy Inc. 3.1.1 最適制御問題 式 (3.1.1) の力学系の拘束条件下で目的関数を最小化するための制御則を求める問題 • x:
システムの状態変数, u: 制御入力 • π: 制御則 • J: 目的関数 • r: コスト関数, Φ: 終端コスト関数
5 ©Gunosy Inc. 3.1.1 最適制御問題 価値観数とベルマン方程式は以下のようになる
6 ©Gunosy Inc. 3.1.2 時間逆方向の価値観数の伝搬に基づく運動学習 • 対象のシステムが線形の場合、解析的に解ける ◦ テキストはシステムが線形でコスト関数が 2次の場合
• 対象が非線形の場合、近似的に価値観数を導出する ◦ 状態空間全域にわたって価値観数を近似的に求めることは困難 ▪ 多くの状態変数を持つため、計算量が膨大になる ▪ => 運動軌道周りに注力して制御則を導出する
7 ©Gunosy Inc. 3.1.2 時間逆方向の価値観数の伝搬に基づく運動学習 • ある軌道まわりで価値関数の2次近似を導出し、その近似された価値関数を最小化するよ うな制御則を用いる方法を考える • 時間逆方向に価値観数の2次モデルを伝搬させる
◦ https://ja.wikipedia.org/wiki/%E5%BE%AE%E5%88%86%E5%8B%95%E7%9 A%84%E8%A8%88%E7%94%BB%E6%B3%95 が詳しい
8 ©Gunosy Inc. 3.1.3 時間順方向の内部シミュレーション計算を用いた運動学習 • 制御対象のモデルが未知の場合 ◦ 実環境からデータをサンプルし、制御則を導出する必要がある •
「実環境から得られたサンプルから内部シミュレーションモデルをつくり上げ、そのモデルか ら生成されるサンプルにもとづいて行動則を更新する」を繰り返す
9 ©Gunosy Inc. 3.2 連続的な状態・行動空間への拡張:マルチロボットシステムへの適用 目次 • 3.2.1 マルチロボット強化学習 •
3.2.2 頑健なMRSのための強化学習法 • 3.2.3 適用例:均質なMRSの協調行動獲得 • 3.2.4 おわりに
10 ©Gunosy Inc. 3.2 連続的な状態・行動空間への拡張:マルチロボットシステムへの適用 • 3.2節ではマルチロボットシステム(複数のロボットからなる系)に対する強化学習のアプ ローチを紹介 ◦ 利点
▪ 並列作業による効率化 ▪ 協調作業による高度化 ▪ 故障に対する頑健性 ◦ 課題 ▪ 次元の呪い ▪ 他エージェントの動きが一定でないため環境が動的 ▪ 不完全知覚問題
11 ©Gunosy Inc. 3.2.2 頑健なMRSのための強化学習法 • 多くの研究では、ロボットはシステム特性をある程度理解した上で、有効であろう役割分担 や必要な機能が各ロボットにあらかじめ与えられている ◦ 非均質なロボットで構成される
• 想定外の状況下でも有効な役割分担を自律的に発現するとともにその役割を可塑的に変 化しうる ◦ 均質なロボットで構成される ◦ 自律的機能分化: 各ロボットが状況に応じた機能の適応的形成と動的割り当てを同時 に行う
12 ©Gunosy Inc. 3.2.2 頑健なMRSのための強化学習法 • ベイズ判定法に基づく強化学習法 ◦ ルール構成 ▪
各クラスをガウス分布によって表現し、各クラスの確率分布を表すパラメータとそ のときの出力をif-then形式で記述したルールとして学習器に記憶する(クラス ≒ ルール) ◦ 動作選択 ▪ 入力に対する各ルールの事後確率をベイズの公式から求め、事後確率最大の ルールに記述されている出力を実行する
13 ©Gunosy Inc. 3.2.3 適用例:均質なMRSの協調行動獲得 • アーム型ロボットの協調荷上げタスク ◦ 3関節を持つアームロボット3台が荷物を規定の高さまで傾けずに持ち上げる ◦
ゴール時に報酬を、傾きがしきい値を超えた時に罰を全ロボットに与える ▪ 全ロボットが一切知識を持たない状態から行った実験 ▪ 安定的な行動を獲得後に1台のロボットを初期化する実験(割愛
14 ©Gunosy Inc. 3.2.3 適用例:均質なMRSの協調行動獲得 • 学習履歴 ◦ 実験初期は未経験の領域が多いために多くのルールを生成し、保持するルールが 徐々に増えているが、学習収束後は保持しているルール数にはほぼ変化がみられな
い
15 ©Gunosy Inc. 3.2.3 適用例:均質なMRSの協調行動獲得 • 学習履歴 ◦ 実験初期は未経験の領域が多いために多くのルールを生成し、保持するルールが 徐々に増えているが、学習収束後は保持しているルール数にはほぼ変化がみられな
い
16 ©Gunosy Inc. 3.2.3 適用例:均質なMRSの協調行動獲得 • 学習した振る舞いの観測 ◦ 機能分化が生じ、振る舞いが各ロボットによって異なる