Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sergey Levine Lecture Remake 1st Introduction a...

Shunichi09
April 03, 2020

Sergey Levine Lecture Remake 1st Introduction and Overview

Shunichi09

April 03, 2020
Tweet

More Decks by Shunichi09

Other Decks in Research

Transcript

  1. Sergey Levine Lecture Remake 第1回 Introduction and Course Overview 2020/04/03

    関口舜一 Twitter : https://twitter.com/menomendy Github : https://github.com/Shunichi09 Qiita : https://qiita.com/MENDY https://www.youtube.com/watch?v=opaBjK4TfLc&lis t=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37&index=26&t=0s Sergeyの動画 Sergeyの講義PDF http://rail.eecs.berkeley.edu/deeprlcourse- fa18/static/slides/lec-1.pdf
  2. このスライドについて • 公開されているSergeyの講義資料(2018)を基に 作成しています ‐ 資料 ‐ http://rail.eecs.berkeley.edu/deeprlcourse-fa18/ ‐ 資料から切り出した画像については★を付け,引用していることとします.

    ‐ 動画 ‐ https://www.youtube.com/playlist?list=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37 • 上記2つを見ながらこのスライドを 見てもらえるとよいかもしれないです! 2020/4/3 -5-
  3. 第一回 • 主な内容 ‐ 強化学習と深層学習 ‐ 深層強化学習になぜ今注目すべきか? ‐ 現在オープンな課題はなにか?強化学習に限らず, 意思決定の問題で

    2020/4/3 -7- https://www.youtube.com/watch?v=opaBjK4TfLc&lis t=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37&index=26&t=0s Sergeyの動画 Sereyの講義PDF http://rail.eecs.berkeley.edu/deeprlcourse- fa18/static/slides/lec-1.pdf
  4. 深層強化学習・導入 2020/4/3 -13- 通常,画像認識を行う場合, HOG特徴量を抽出して,変換して, クラス分類をするという多段階のステップ が必要.(それぞれステップを手で組み合 わせる) 深層学習なら①ハンドメイド的でなくかつ, ②様々なものに勝手に最適化された,モ

    デルを獲得できる. 深層強化学習でいえば,特に何が大事な のかが分からないため,手でfeatureを抽 出すると,そのfeatureを使う以上の行動 が獲得できない. そこで深層強化学習!! ★
  5. 報酬は一体どこから? 2020/4/3 -22- ゲームであればスコアがある. しかし,現実の問題はそう単純じゃない. 人間だと脳のBasal gangliaが報酬を感じる?そ うだけど,そのプロセスは解明されていないし 下のガゼルの例でいえば, チーターはランダムにガゼルを捕まえて食べ

    て,よし生き残るのに必要!(報酬獲得!)と なり,ガゼルを捕まえるようになるのかというと そうではない.(ガゼルは逃げるのでそんなラ ンダムに動いていてもチーターがガゼルを食 べるときはこない)もっと違う何かがある.(経 験だけで,報酬は作られない) また,人間は見て,推測することに 優れている.(例えば他の人を見て, どんな報酬なんだろうと推測することができる) ★
  6. 学習こそintelligence 2020/4/3 -28- 仮説というのは学習こそintelligence であるというもの というのも, • 歩くといったはみんなができること • 車を運転するといった学べばできるよ

    うになること • そして,とても難しいことも学べば人間 はできるようになる から, 学ぶこと,学習こそが大切なことなので は? ★
  7. 今の深層強化学習ができないこと 2020/4/3 -33- 見たままですが, • 人はとても早く適応する • 過去の情報をreuseできる(転移の意 味) •

    報酬関数をどのように設定するか • 予測の役割は?モデルフリーがいい のか,モデルベースがいいのか... ★