Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIか何かについて.pdf

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for kunou kunou
July 19, 2019
40

 AIか何かについて.pdf

Avatar for kunou

kunou

July 19, 2019
Tweet

Transcript

  1. 強化学習って何?
 https://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%AB%E3%82%B3%E3%83 %95%E6%B1%BA%E5%AE%9A%E9%81%8E%E7%A8%8B マルコフ決定過程 ある状態(S0 | S1 | S2 )の時に、ある行動(a0

    | a1 )を取ると、 確率的に報酬を得て次の状態に遷移する。 強化学習では、解きたい問題をこのモデルに当てはめ、 得られる報酬が最大になる組み合わせを 自動で探し出し学習する。
  2. どうやって行動を決定してるの?
 今回は ニューラル ネットワーク (学習済み) 0(左) 1(右) 2(入力 なし) 直近4フレームから

    ※1 実際は回帰問題なので分類問題では 無いのですが、説明を単純にするため便 宜上分類問題のように書いています アクションを決定してい る ※1
  3. どうやって行動を決定してるの?
 今回は ニューラル ネットワーク (学習済み) 0(左) 1(右) 2(入力 なし) 直近4フレームから

    アクションを決定してい る ※1 ※1 実際は回帰問題なので分類問題では 無いのですが、説明を単純にするため便 宜上分類問題のように書いています データとしては、縦、横、フレームの 3 次元配列で表現できる ※2 ※2 この問題の場合は色は重要ではない のでグレースケールとして扱っている
  4. どうやって行動を決定してるの?
 今回は ニューラル ネットワーク (学習済み) 0(左) 1(右) 2(入力 なし) 直近4フレームを表す配

    列を受け取り アクションに応じた数値 を返す ※1 ※1 実際は回帰問題なので分類問題では 無いのですが、説明を単純にするため便 宜上分類問題のように書いています [ [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], : ]
  5. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま 0.323 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 もしこの状態に 一致するならば…
  6. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま 0.323 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 もしこの状態に 一致するならば… 報酬が最大になる アクションを選択す る
  7. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま 0.323 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 もしこの状態に 一致するならば… 報酬が最大になる アクションを選択す る その結果ボールを 落とす
  8. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 もしこの状態に 一致するならば… ボールを落としたの で報酬を減らす※ ※1 実際の計算方法については省略
  9. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 再度この状態に 一致するならば…
  10. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 再度この状態に 一致するならば… 報酬が最大になる アクションを選択す る
  11. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 再度この状態に 一致するならば… 報酬が最大になる アクションを選択す る その結果、ボール を得られる
  12. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.534 -0.111

    0.222 0.333 -0.432 0.543 0.325 再度この状態に 一致するならば… ボールを得られた ので報酬を増やす
  13. ニューラルネットって何してるの?
 例えば画像分類だと 関数 0 [ [[256, 128, 192], [211, 73,

    81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], : ] 1 [ [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], : ] ある配列を受け取り 分類に応じた数値を返 す