Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Sergey Levine Lecture Remake 1st Introduction a...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Shunichi09
April 03, 2020
Research
700
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Sergey Levine Lecture Remake 1st Introduction and Overview
Shunichi09
April 03, 2020
More Decks by Shunichi09
See All by Shunichi09
Inverse RL / Sergey Levine Lecture Remake 16th Inverse RL
shunichi09
0
870
Control as Inference / Sergey Levine Lecture Remake 14th Control as Inference
shunichi09
0
1.4k
Sergey Levine Lecture Remake 2nd Supervised Learning of Behaviors
shunichi09
0
1.4k
機械学習・確率輪講(第五回)EMアルゴリズム
shunichi09
0
1k
機械学習・確率輪講(第五回)HMM
shunichi09
0
1.1k
機械学習・確率輪講(第五回)Introduction of Model based RL
shunichi09
1
450
機械学習・確率輪講(第一回)
shunichi09
0
730
Guided policy search
shunichi09
5
2.8k
PILCO
shunichi09
0
3.6k
Other Decks in Research
See All in Research
【Zozo Research 技術共有会】三次元領域の現在と展望
mickey_0226
3
420
AGI4OPT:自然言語から数理最適化を導くエ ージェントスキル Translating Human Intent into Mathematical Optimization
mickey_kubo
0
140
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
shunk031
4
1.1k
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
850
Fukui Shibiten 39 - AI Art
butchi
0
130
第64回CV・PRML勉強会 論文紹介:Linguistic Priors for Visual Decoupling: Towards Symmetric Vision-Brain Alignment
sokikatayama
0
110
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
7
4.7k
東京大学工学部計数工学科、計数工学特別講義の説明資料
kikuzo
0
520
コーディングエージェントとABNを再考
hf149
2
730
非試合日の野球場を楽しむためのARホームランボールキャッチ体験システムの開発 / EC79-miyazaki
yumulab
0
240
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
6
1.7k
第12回人と環境にやさしい交通をめざす全国大会/熊本都市圏「車1割削減、渋滞半減、公共交通2倍」をめざして
trafficbrain
0
120
Featured
See All Featured
Agile that works and the tools we love
rasmusluckow
331
22k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
260
We Have a Design System, Now What?
morganepeng
55
8.2k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
950
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Faster Mobile Websites
deanohume
310
32k
Ethics towards AI in product and experience design
skipperchong
2
310
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
210
Context Engineering - Making Every Token Count
addyosmani
9
980
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
310
Transcript
Sergey Levine Lecture Remake 第1回 Introduction and Course Overview 2020/04/03
関口舜一 Twitter : https://twitter.com/menomendy Github : https://github.com/Shunichi09 Qiita : https://qiita.com/MENDY https://www.youtube.com/watch?v=opaBjK4TfLc&lis t=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37&index=26&t=0s Sergeyの動画 Sergeyの講義PDF http://rail.eecs.berkeley.edu/deeprlcourse- fa18/static/slides/lec-1.pdf
このスライドの目的 2020/4/3 -2- 以下のSergey Levineの授業(2018)を 徹底的に理解する • 参考URL • http://rail.eecs.berkeley.edu/deeprlcourse/
各回のスライドはgithubにまとめます • https://github.com/Shunichi09/SergeyLectureRemake 2020/4/3 -3-
なんでこの授業? • この授業はすごく分かりやすい ‐ 分かりやすすぎて毎回感激するっていうぐらい 後世に残すべき授業,ただ少し理解が必要な部分がある 自分のためにまとめます • 深層強化学習,深層学習,変分推論など 最近の論文を追うのに必要なほぼすべての範囲が網羅
2020/4/3 -4-
このスライドについて • 公開されているSergeyの講義資料(2018)を基に 作成しています ‐ 資料 ‐ http://rail.eecs.berkeley.edu/deeprlcourse-fa18/ ‐ 資料から切り出した画像については★を付け,引用していることとします.
‐ 動画 ‐ https://www.youtube.com/playlist?list=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37 • 上記2つを見ながらこのスライドを 見てもらえるとよいかもしれないです! 2020/4/3 -5-
スライドの構成 2020/4/3 -6- ★ 引用を 表す Sergeyの授業 スライド コメントや 要約など
※必ずではないです あくまで基本構成
第一回 • 主な内容 ‐ 強化学習と深層学習 ‐ 深層強化学習になぜ今注目すべきか? ‐ 現在オープンな課題はなにか?強化学習に限らず, 意思決定の問題で
2020/4/3 -7- https://www.youtube.com/watch?v=opaBjK4TfLc&lis t=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37&index=26&t=0s Sergeyの動画 Sereyの講義PDF http://rail.eecs.berkeley.edu/deeprlcourse- fa18/static/slides/lec-1.pdf
授業の概要(p1~p8) • 本題とは全く関係ないので飛ばしますが,少し補足 ‐ Advancedなクラスです,かつ,特定の授業を先に取得しておいてね! のような条件が付いている講義です. ‐ 受講希望者の人数が取っても多い,2倍といっていた ‐ オフィスアワー(授業の相談)とかは,水曜日の授業終わった後です!
(僕の行ってた大学もこういうの作ればよかったのに) ‐ 課題で自動微分ライブラリを使います,Tensorflowがdefaultだけど 別のものを使ってもいいよーとのこと ‐ Piazzaが少しだけ気になりますね 2020/4/3 -8-
SFの世界 2020/4/3 -9- ★ このスライドでは, いろんなSFで出てきたロボットを紹介 (一番左のやつ見たことないですね) これらのロボットは,Adaptively(適応的) かつ,Flexible(柔軟)に行動できる では,これらを作るのに
• どんな技術が足りていないのか? • どんな問題を解けば,この子たちを 作れるのか? 次で今の技術でできることを紹介します
今できることできないこと 2020/4/3 -10- 今の技術である場所からある場所まで を移動させること(navigate)することは 簡単.でも,タンカーには人がいます. この人は,右図のように何かが起きたら 直すということをします. この何かが起きたらというのは, 予期されていないことなので,柔軟にか
つ適応的に対応しないといけない. 今の技術では上記を実現するのは かなり難しい. (状況が非常にComplexなので) ★
深層学習 2020/4/3 -11- Deep learningはそのUnstructuralなもの に対して強い. Low levelの情報(画像など)から,モデル を構築することができます. 以下その例!
★
強化学習 2020/4/3 -12- では,ここで, 強化学習についてみていくと 左の図みたいに,強化学習は 観察情報を使って行動を決定する ための枠組みを提供してくれるものです (要は意思決定問題を解く) 右図がその例
TD-Gammonしらなかったです. ★
深層強化学習・導入 2020/4/3 -13- 通常,画像認識を行う場合, HOG特徴量を抽出して,変換して, クラス分類をするという多段階のステップ が必要.(それぞれステップを手で組み合 わせる) 深層学習なら①ハンドメイド的でなくかつ, ②様々なものに勝手に最適化された,モ
デルを獲得できる. 深層強化学習でいえば,特に何が大事な のかが分からないため,手でfeatureを抽 出すると,そのfeatureを使う以上の行動 が獲得できない. そこで深層強化学習!! ★
深層強化学習・導入 2020/4/3 -14- もう少し深層強化学習(End-to-end) について説明すると, もしジャングルでトラを見た時に 知覚と行動決定のプロセスが分かれてい た場合は,トラだと認識➔どう行動? になる.それだと,どれだけ離れているの かとか,種類は?とかそういう情報が抜
け落ちる. End-to-endでやれば,そこを一気通貫し て学習できる,(もはやトラであることは必 要ない) ★ End- to-end
例:ロボット 2020/4/3 -15- ロボットの例も見てみる. ロボットだと,①観察②推定③予測④計 画⑤lowレベルの制御⑥制御 というステップを踏む. それぞれがもはや研究テーマだけど, 適切にそれぞれを選ばないといけない さらに,良くないのはそれぞれの部分の
仮定が影響しあわないように 仮定がより簡便なほうに設定されがち (ロボットはゆっくり動く) で全体としてパーフォーマンスが落ちる ★
例:ロボット 2020/4/3 -16- この左の研究はロボットを End-to-endで学習させた例 結果として積み木を箱にいれることに 成功している. 最適化は経験から行われる. ★
深層強化学習 2020/4/3 -17- 強化学習には,エージェントと環境があっ て,Actとobs,rewardですべてを左のよう に設定することができる. さらに,この問題設定で 画像認識(正しく画像を認識できたかどう がをrewardに設定)や自然言語処理も 扱うことができる.
Deepなモデルは強化学習において 複雑なタスクをEnd-to-endで解法する ことを手伝ってくれる ★
例:複雑なタスクでの強化学習 2020/4/3 -18- 複雑なタスクを解いている例 釘をうったり,見えなくなっているけど Breakout(ブロック崩し)したり, 交通整備のタスクに成功している ★
なぜ今深層強化学習? 2020/4/3 -19- これについては見ての通りです. 深層学習の発展 強化学習でのアルゴリズムの発展 コンピュータの発展 個人的には一番下が大きいのでは と思っています. ★
実は発想自体は昔からある 2020/4/3 -20- 実は強化学習と深層学習を 組み合わせて複雑な問題を解ける という話は昔から提案されているそうで 上の本では,階層型学習や教師あり学習 についても述べられているそうです. 下の図はこの5年での 深層強化学習の発展を紹介
★
意思決定問題を解くための課題 2020/4/3 -21- (複雑なタスクを深層モデルを使って解く) 以外に現実の意思決定問題を解くために どんな問題があるか? 強化学習はもともと報酬を最大化するこ とを目的としたもの しかしこれだけが意思決定問題において 問題なのではない
授業内で, • 報酬を学習する • ドメインで知識をTransfer(変換)させる • 予測を使って行動する などもう少し発展的な内容にも取り組み ます ★
報酬は一体どこから? 2020/4/3 -22- ゲームであればスコアがある. しかし,現実の問題はそう単純じゃない. 人間だと脳のBasal gangliaが報酬を感じる?そ うだけど,そのプロセスは解明されていないし 下のガゼルの例でいえば, チーターはランダムにガゼルを捕まえて食べ
て,よし生き残るのに必要!(報酬獲得!)と なり,ガゼルを捕まえるようになるのかというと そうではない.(ガゼルは逃げるのでそんなラ ンダムに動いていてもチーターがガゼルを食 べるときはこない)もっと違う何かがある.(経 験だけで,報酬は作られない) また,人間は見て,推測することに 優れている.(例えば他の人を見て, どんな報酬なんだろうと推測することができる) ★
見て学ぶ,見て推測する 2020/4/3 -23- (例えば他の人を見て,どんな報酬なん だろうと推測することができる)けど,他に どんなものを見て学ぶことができるか? • デモから学習する • 動作の真似をする
• 報酬(さっきの例) • 世界を学ぶ • 観察から予測する • 観察から教師なし学習をする • 他のタスクから学ぶ ★
模倣学習の例 2020/4/3 -24- 模倣学習の例で 自動運転(確かUber)だった気がする 下の例は男の人が本を左にある棚にい れようとするシーンで,その意図をくみ 取った子供がそれを開けるという動画 (見て,報酬がなんなのか推測,扉がどう いうものなのかを予測して,報酬を最大
化する) こういうことをできないといけないと 思う. ぜひ動画をみてみてください ★
逆強化学習の例 2020/4/3 -25- 子供の例は複雑すぎるけど, 見て報酬を推測する(逆強化学習) の例. これは,人間がロボットにコップの水を 移す作業を教えて,報酬を獲得(ポテン シャル)して,どの位置にコップがきても 移せるようになるという研究
★
予測の例 2020/4/3 -26- 予測ができないと計画ができない.という 話 その下の図は,正確なモデルがあると 面白い動きができる(複雑な歩行を実現 できる) 予測の例で,画像を予測している例 を示している.
★ ★
どうやってintelligentな機械を作るか 2020/4/3 -27- 少し別の話(もっと上のレイヤー)になる けど,どうやってインテリジェントな機械を 作るのかを考えてみたい. どこからはじめればいいだろうか? 脳を作ればよい? 脳はそれぞれの部分について解明が 進んでいるからそれぞれの処理を
頑張ってコードに書けばいいだろうか? でも,それはとても大変だ... ここである仮説があるので紹介します. ★
学習こそintelligence 2020/4/3 -28- 仮説というのは学習こそintelligence であるというもの というのも, • 歩くといったはみんなができること • 車を運転するといった学べばできるよ
うになること • そして,とても難しいことも学べば人間 はできるようになる から, 学ぶこと,学習こそが大切なことなので は? ★
1つのアルゴリズム 2020/4/3 -29- 簡単な1つのアルゴリズムから Intelligenceは成り立っているのだろう か? 実際,下から目の情報,音から位置の情 報を知る(学んで分かるようになる) ことができるし, フェレットの実験では,耳の情報が入る
ところに目の情報をつないでも しばらくすると, フェレットは活動することができた ➔1つのアルゴリズムを学ぶことで, Intelligenceは成り立っている ★
1つのアルゴリズム 2020/4/3 -30- アルゴリズムがやることは センサ情報を受け取り,行動を決定する こと 上記を“学び”たい 深層強化学習で上記をやるべきなのは, ディープなモデルはセンサ情報を変化で きるし,複雑な行動を決定できるから
★
実際の例 2020/4/3 -31- 本当に深層強化学習は 複雑なセンサを処理できて, 複雑な行動を決定できるのかの例を示し ている. 視覚の処理や,音の処理,ものに触った 際の処理を深層学習で表現できている 強化学習で言えば
ある信号に対して必ず良い報酬がもらえ るとその信号が良いものとして扱われる ようになる(ベルマンバックアップと似て る)などなど ★
今の深層強化学習ができること 2020/4/3 -32- 見たままですが, • 既知のルールやシンプルなルールの もとでは高い精度の技術を獲得するこ とができる • たくさんの生データがあればシンプル
なスキルを獲得できる • たくさんの教師の動作から模倣するこ とができる ★
今の深層強化学習ができないこと 2020/4/3 -33- 見たままですが, • 人はとても早く適応する • 過去の情報をreuseできる(転移の意 味) •
報酬関数をどのように設定するか • 予測の役割は?モデルフリーがいい のか,モデルベースがいいのか... ★
最後に 2020/4/3 -34- 人間の脳は, シンプルな1つのアルゴリズムで表せそう そして,ここである言葉を なぜ大人の脳をシミュレートするプログラ ムを作る代わりに,子供の脳をシミュレー トするものを作らないのですか? もし学ばせることができれば,
子供の脳は大人の脳になる. ★