Upgrade to Pro — share decks privately, control downloads, hide ads and more …

今天開始我的 AI 人工智慧冒險之旅

今天開始我的 AI 人工智慧冒險之旅

這是 2020 年 9 月 9日在政治大學新生訓練期間, 我們舉辦的「焦點工作坊」中的一場。這場是介紹 AI 深度學習的基本概念, 還有怎麼樣在政大能開始學習 AI, 甚至做出自己的 AI 專案。

[email protected]

September 06, 2020
Tweet

Other Decks in Education

Transcript

  1. 度學習 4 蔡炎⿓⽼師 美國爾灣加州⼤學 (UC Irvine) 數學博⼠ 政治⼤學應⽤數學系副教授 政治⼤學新⽣書院總導師 台灣⼈⼯智慧學校講師

    著有《少年Py的⼤冒險: 成為Python數 據分析達⼈的第⼀⾨課》、《⼈⼯智慧導 論》(合著) 等書 錄製 Python 及 Deep Learning 政⼤磨 課師課程
  2. 度學習 17 雖然 Yann LeCun 對通⽤型 AI 這個詞有意⾒... No, No.

    應該叫 Human Level Intelligence Yann LeCun 被稱為 deep learning 三巨頭之 ⼀、CNN 之⽗。
  3. 度學習 19 甚⾄可能會有點令⼈失望... AI 會泡沬化。 * 因 AI 大規模失業的事件已不斷在發生中... *

    當然有人整天用吹牛做 AI 的是很可能泡沬化。 很多⼈太過低估 AI 的影響。
  4. 度學習 21 AI 的重點在「預測」 The current wave of advances in

    artificial intelligence doesn’t actually bring us intelligence but instead a critical component of intelligence: prediction. ” “ —Agrawal-Gans-Goldfarb, “Prediction Machines”
  5. 度學習 38 AI 實作六部曲 1. 先問一個問題 2. 把問題化為函數的形式 3. 準備訓練資料

    4. 打造「函數學習機」 5. 訓練學習 6. 預測 實作 AI 很簡單的!
  6. 度學習 43 02 把問題化成函數的形式 ⼩事⼀件, 都叫 tensor (張量)。 x =

    9487 x = [9,4,8,7] x = [ 9 4 8 7] 純量 向量 矩陣 0階 tensor 1階 tensor 2階 tensor
  7. 度學習 46 02 把問題化成函數的形式 台灣⿊熊 豬 蠎蛇 [ 1 0

    0 ] [ 0 1 0 ] [ 0 0 1 ] 我們常把它做成 one-hot encoding [ 1 0 0 ] 台灣⿊熊 豬 蠎蛇
  8. 度學習 47 02 把問題化成函數的形式 f 我們的例⼦, 化成 one-hot encoding 時,

    函數學習機會要學輸 ⼊⼀張照⽚, 輸出三個數字的函數。⽐如說像這樣的輸出。 y1 y2 y3 1.9 1.1 0.2 於是我們會知道, 電腦判斷最有可能是台灣⿊熊。
  9. 度學習 48 02 把問題化成函數的形式 f 我們甚⾄可以經過⼀個運算, ⽐⽅說 softmax, 讓三個輸出的 數字加起來合為

    1。 y1 y2 y3 1.9 1.1 0.2 於是我們知道, 我們的神經網路判斷 61% 的可能是台灣⿊熊, 28% 的可能是豬, 只有 11% 的可能是蠎蛇。 0.61 0.28 0.11
  10. 度學習 49 03 準備訓練資料 ( , "台灣⿊熊") ( , "蠎蛇")

    , , ... x1 x2 y2 y1 x k+1 , y k+1 x k , y k x1 , y1 x n , y n 訓練資料 測試資料 我們需要準備測試資料, 不 參數訓練。⽬的是確認電腦 沒有在「背答案」也就是沒 有過度擬合 (over fitting) 的情況!
  11. 度學習 50 03 準備訓練資料 1. 是否有夠多 (常常是上萬 筆) 的歷史資料。 2.

    是否在合理努力下可以 取得這些資料。 資料蒐集要注意...
  12. 度學習 51 04 打造「函數學習機」 DNN CNN RNN Transformer Autoencoder Reinforcement

    Learning GAN 深度學習就是我們⽤深 度學習的⽅式, 打造⼀台 函數學習機。
  13. 度學習 52 04 打造「函數學習機」 വᏐ ላशػ 完成! {wi , bj

    } θ 不管我們⽤了什麼阿貓阿狗 法, 打造了⼀台函數學習機, 就會有⼀堆參數要調。
  14. 度學習 55 05 訓練 (學習) 注意我們的參數, 也就是 決 定了, 我們的函數學習機學出

    的函數就固定了 (也就是每張 照⽚會回答什麼就決定了)。 θ fθ
  15. 度學習 62 01 股價預測 f 化成函數的形式, 我們當然可以很天真的這麼做... 輸⼊ 輸出 ⽇期

    x 某股票 x 當天的收盤價  不合理的是, 輸⼊⽇期這個資訊太少, 不太可能這樣就推出收盤價!
  16. 度學習 67 03 全壘打預測 f 輸⼊ 輸出 RNN 某選⼿第 t-

    年資料 第 t 年全壘打數 [Age, G, PA, AB, R, H, 2B, 3B, HR, RBI, SB, BB, SO, OPS+, TB] 每位選⼿都有 15 個 features!
  17. 度學習 72 04 對話機器⼈ ⽐如說, “今天天氣很好。” 這句話, 輸⼊我們的函數就應該是... f(“今”) =

    “天” f(“天”) = “天” f(“天”) = “氣” f(“氣”) = “很” f(“很”) = “好” 這根本不是函 數啊!
  18. 度學習 77 05 創作機器⼈ 結果是訓練兩個神經網路! G D ⽣成器 鑑別器 ⼀⼩段曲⼦

    像 or 不像 ⼀⼩段曲⼦ 靈感 ⼀⼩段曲⼦ 這就是所謂的⽣成對抗網路 (GAN)!
  19. 度學習 84 ⼩結論 f 輸⼊ 輸出 x y (再⼀次) 重點是⼀次要⾮常

    明確化成函數的形式, 也就 是要知確實說清楚輸⼊、輸 出是什麼。
  20. 度學習 89 假設我們確定要學哪個函數了 f x x xn y y ym

    也就是我們輸⼊和輸出都很 明確, 明確到輸⼊輸出的⼤⼩ 當然也都確定了!
  21. 度學習 94 神經網路暗⿊學習法! Hidden Layer Output Layer Input Layer 暗黑魔法

    如同魔法般的, 你問好問 題 、準備好資料, 神經網 路就告訴你函數應該⻑ 什麼樣⼦!
  22. 度學習 99 神經網路新時代! Human-level control through deep reinforcement learning ”

    “ DeepMind 2015-2-26 Deep Q- letter 原來電腦可以⾃已學 會做⼀些複雜的任務!
  23. 度學習 100 神經網路新時代! Deep Learning “ LeCun-Bengio-Hinton 2015-5-28 http://bit.ly/ai_history 介紹

    Deep Learning「三巨頭」 的故事。 延申閱讀 度過神經網路寒冬的 三巨頭, ⼀起宣告 deep learning 時代 的來臨! ”
  24. 度學習 101 神經網路新時代! Deep Learning 打敗 世界棋王, 讓⼤家⼤ ⼤期待 deep

    learning 的能⼒! ” Mastering the game of Go with deep neural networks and tree search” “ DeepMind 2016-2-26
  25. 度學習 106 深度學習就是建⼀層層「隱藏層」 x ̂ y input layer hidden layers

    output layer DNN, CNN, RNN 嚴格說是每⼀ 層都可以決定是要⽤三種之中, 哪⼀種⽅式做隱藏層的設計。
  26. 度學習 107 深度學習就是建⼀層層「隱藏層」 x1 x2 xn h1 h2 hk x

    h ℱ1 全連結層 (Dense) 卷積層 (Conv) 遞歸層 (LSTM, GRU) 差不多就是決定 幾個神經元就結 束了。 隱藏層基本上就三種選擇: DNN CNN RNN
  27. 度學習 124 函數空間 fθ 當我們⽤神經網路的⽅式, 打造了⼀台 函數學習機之後, 決定⼀組參數 (包 括權重、偏值)

    就會決定⼀個函數。 因為我們的函數學習機可以⽣出無限 多個函數, 我們把所有可能⽣出的函數 收集起來, 成為⼀個函數空間。 θ {fθ }
  28. 度學習 126 Loss Function 我們會⽤⼀個叫 loss function 的, 計算訓練資料中, 我們的神經

    網路輸出和正確答案有多⼤的差 距。 ⾃然我們希望 loss function 的 值是越⼩越好。
  29. 度學習 127 Loss Function 假設我們有訓練資料 {(x1 , y1 ), (x2

    , y2 ), …, (xk , yk )} 意思是輸⼊ , 正確答案應該是 。 xi yi f 輸⼊ 輸出 xi yi
  30. 度學習 128 Loss Function 輸⼊ 輸出 xi ̂ yi fθ

    fθ (xi ) = ̂ yi 任何⼀組參數 , 就會給定⼀個函數 。這個函數 對任意的輸⼊ 都會給出⼀個值 。 θ fθ fθ xi ̂ yi
  31. 度學習 129 Loss Function 輸⼊ 輸出 xi ̂ yi fθ

    fθ (xi ) = ̂ yi 我們當然希望神經網路給出的 , 和正確答案 差距是越⼩越好! ̂ yi yi yi 正確答案 看差多遠
  32. 度學習 130 Loss Function L(θ) = 1 2 k ∑

    i=1 ∥yi − fθ (xi )∥2 Loss function 就是計算神經網路給的答 案, 和正確答案差距多少的函數。例如說 以下是常⾒的 loss function: 這什麼啊!?
  33. 度學習 131 Loss Function L(θ) = 1 2 k ∑

    i=1 ∥yi − fθ (xi )∥2 其實就是計算和正確答案的差距! 我們希望誤差 越⼩越好! 正確答案 函數學習機 給的答案
  34. 度學習 142 切線斜率炫炫的符號 在 點的切線斜率符號是這樣: w = a 對任意的 點來說,

    我們寫成函數形 式是這樣: w L′ (w) = dL dw L′ (a) 我們在微積分很會 算這些!
  35. 度學習 143 往 (局部) 極⼩移動! 在 我們可以調整新的 值為: w =

    a w a − L′ (a) 對任意的 點來說, 我們會有這樣⼦ 的公式去調整 的值。 w w w − dL dw 是不是真的可以 呢? 有點緊張。
  36. 度學習 146 Learning Rate w − η dL dw 為了不要跑過頭,

    我們 不要⼀次調太⼤, 我們 會乘上⼀個⼩⼩的數, 叫 Learning Rate。
  37. 度學習 149 假裝只有⼀個參數 L(w1 , w2 , b1 ) =

    (b1 + 2w1 − w2 − 3)2 假設我們的神經網路有三個參數 , ⽽ loss function ⻑這樣: w1 , w2 , b1 設我們把這個神經網路初始化, 各參數的值 如下: w1 = 1,w2 = − 1,b1 = 2 假設⼀個簡單、多 參數的狀況!
  38. 度學習 151 假裝只有⼀個參數 中只要保留 這 個變數, 其他值都直 接代⼊! 於是 當場

    只剩⼀個參數! L w1 L L(w1 , w2 , b1 ) = (b1 + 2w1 − w2 − 3)2 w1 = 1,w2 = − 1,b1 = 2 Lw1 (w1 ) = L(w1 , − 1,2) = 4w2 1
  39. 度學習 156 Gradient 梯度 w1 w2 b1 − η ∂L

    ∂w1 ∂L ∂w2 ∂L ∂b1 這關鍵的向量我們稱為 的梯度 (gradient), 記為: L ∇L
  40. 度學習 164 確⽴函數的樣⼦ 暗黑魔法 { } 784 10 神經網路 函數學習機

    輸⼊是⼀張 的圖, 「拉平」是 784 維的向量。 輸出 10 個類別, 也就是 10 維的向量。 28 × 28
  41. 度學習 166 Softmax a b c 很⾃然我們會這麼做: ea eb ec

    毎個數字經 指數轉換 按⽐例 ea/T eb/T ec/T T = ea + eb + ec 這就叫 softmax
  42. TensorFlow 2 度學習 168 02 打造深度學習函數學習機的函式 做 one-hot encoding 的⼯具

    Sequential: 標準打造一台深度學習 函數學習機的方式。 Dense: 做全連結的隱藏層。 SGD: 標準的 gradient descent。
  43. TensorFlow 2 度學習 169 03 讀⼊ MNIST 數據集 讀⼊ MNIST

    數據 集, 注意訓練資 料、測試資料已幫 我們準備好!
  44. TensorFlow 2 度學習 171 Step : 打造我們的函數學習機 假設我們做兩個隱藏層, 都是 100

    個神經元、都⽤ ReLU 做 activation function。 輸出 10 維, 做 softmax。 就差不多只是告訴電 腦, 我們怎麼設計神 經網路的就結束了!
  45. TensorFlow 2 度學習 172 Step : 打造我們的函數學習機 loss: 用哪個 loss

    function。 optimizer: 我們用 SGD, 設 learning rate。 metrics: 這裡是顯示目前正確率。
  46. TensorFlow 2 度學習 173 Step : fit 訓練 batch_size: mini

    batch 的大小。 epochs: 訓練次數。 深度學習 的重頭戲!
  47. TensorFlow 2 度學習 174 Step : Predict 這樣 predict 就會

    是對所有測試資料 的預測結果。
  48. 度學習 180 Yann LeCun 1987 Universite Pierre et Marie Curie

    (巴黎第六大學) 資訊科學博士 University of Toronto 博士後研究 1988- Bell 實驗室 2003 NYU 教授 2013 Facebook AI Director Yann LeCun 博⼠就研究 ConvNet (不全連結的神經網路)
  49. 度學習 186 CNN 的兩種隱藏層 卷積層 (convolutional layer) 池化層 (pooling layer)

    CNN 特有兩種隱 藏層的形式, ⼀般 兩種都會⽤到。
  50. 度學習 189 Filter 的作⽤ 每個 filter 看⼀個特徵, 掃過每⼀個 點, 紀錄該點附近的「特徵強度」。於

    是紀錄在⾃⼰的「記分板」上。 filter filter input 記分板 記分板
  51. 度學習 190 Filter 卷積的運算 d11 d12 d13 d14 d21 d22

    d23 d24 d31 d32 d33 d34 d41 d42 d43 d44 input [ 0 1 0 0 1 0 0 1 0 ] * filter ⼀個 filter 就像個權重做加 權和, 也就是內積 (dot product)。 d11 × 0 + d12 × 1 + d13 × 0 + d21 × 0 + d22 × 1 + d23 × 0 + d31 × 0 + d32 × 1 + d33 × 0 =
  52. 度學習 191 Filter 卷積的運算 2 5 5 2 5 2

    0 1 2 3 4 0 4 2 1 5 4 3 1 3 5 5 4 3 5 3 4 5 0 2 1 5 2 3 1 1 1 0 1 3 4 4 1 1 5 1 1 4 2 3 2 2 0 4 2 4 0 5 4 5 3 4 1 4 35 想成這是⼀張圖所成的矩陣 filter 內積 這學來的 W= ⼀個 filter 就看 ⼀個特徵, 紀錄在 記分板上。 記分板
  53. 度學習 192 Filter 卷積的運算 同⼀個 filter, 當 然矩陣 (權重) 是

    ⼀樣的。 記分板 2 5 5 2 5 2 0 1 2 3 4 0 4 2 1 5 4 3 1 3 5 5 4 3 5 3 4 5 0 2 1 5 2 3 1 1 1 0 1 3 4 4 1 1 5 1 1 4 2 3 2 2 0 4 2 4 0 5 4 5 3 4 1 4 35 27 filter 右移⼀格 還是一樣的矩陣 W=
  54. 度學習 193 Filter 卷積的運算 掃到最後, 完成這個 filter 的計分板。 要注意的是, 這內積的

    部份只有我們原本的加 權和, 事實上還是要加 上偏值、經激發函數轉 換送出! 記分板 2 5 5 2 5 2 0 1 2 3 4 0 4 2 1 5 4 3 1 3 5 5 4 3 5 3 4 5 0 2 1 5 2 3 1 1 1 0 1 3 4 4 1 1 5 1 1 4 2 3 2 2 0 4 2 4 0 5 4 5 3 4 1 4 35 27 44 32 36 38 36 36 37 36 36 43 37 37 23 26 17 35 29 25 22 18 14 27 27 25 24 21 24 32 31 38 27 34 25 40 filter ⼀路到最後 W=
  55. 度學習 194 為什麼卷積會抽取特徵? [ 0 1 0 0 1 0

    0 1 0 ] 0 1 0 0 1 0 0 1 0 [ 1 0 0 0 1 0 0 0 1 ] 3分 1分 Filter Filter 圖 我們來看同⼀張圖,對兩 個不同的 filter 運算的 結果。 可以看出⼀樣的會得⾼ 分!
  56. 度學習 195 為什麼卷積會抽取特徵? [ 0 1 0 0 1 0

    0 1 0 ] 1 0 0 0 1 0 0 0 1 [ 1 0 0 0 1 0 0 0 1 ] Filter Filter 圖 3分 1分 換另⼀張圖發現, 真的 像的會得到⾼分!
  57. 度學習 197 輸⼊的圖每個像素可當成⼀個神經元 2 5 5 2 5 2 0

    1 2 3 4 0 4 2 1 5 4 3 1 3 5 5 4 3 5 3 4 5 0 2 1 5 2 3 1 1 1 0 1 3 4 4 1 1 5 1 1 4 2 3 2 2 0 4 2 4 0 5 4 5 3 4 1 4 35 27 44 32 36 38 36 36 37 36 36 43 37 37 23 26 17 35 29 25 22 18 14 27 27 25 24 21 24 32 31 38 27 34 25 40 filter 圖片上的點是一個個輸入層 神經元 W=
  58. 度學習 198 記分板也是⼀個個神經元組成 2 5 5 2 5 2 0

    1 2 3 4 0 4 2 1 5 4 3 1 3 5 5 4 3 5 3 4 5 0 2 1 5 2 3 1 1 1 0 1 3 4 4 1 1 5 1 1 4 2 3 2 2 0 4 2 4 0 5 4 5 3 4 1 4 35 27 44 32 36 38 36 36 37 36 36 43 37 37 23 26 17 35 29 25 22 18 14 27 27 25 24 21 24 32 31 38 27 34 25 40 filter Conv 層也是⼀個個神經元 W= 記分板每⼀個分數的位 ⼦也是⼀個神經元。
  59. 度學習 199 不是完全連結的神經網路 記分板⼀個數字 (⼀個 神經元) 只和輸⼊的九 個神經元相連。 2 5

    5 2 5 2 0 1 2 3 4 0 4 2 1 5 4 3 1 3 5 5 4 3 5 3 4 5 0 2 1 5 2 3 1 1 1 0 1 3 4 4 1 1 5 1 1 4 2 3 2 2 0 4 2 4 0 5 4 5 3 4 1 4 35 27 44 32 36 38 36 36 37 36 36 43 37 37 23 26 17 35 29 25 22 18 14 27 27 25 24 21 24 32 31 38 27 34 25 40 filter 兩層中沒有完全相連 W=
  60. 度學習 200 權重是相同的 (對同⼀個 filter) 2 5 5 2 5

    2 0 1 2 3 4 0 4 2 1 5 4 3 1 3 5 5 4 3 5 3 4 5 0 2 1 5 2 3 1 1 1 0 1 3 4 4 1 1 5 1 1 4 2 3 2 2 0 4 2 4 0 5 4 5 3 4 1 4 35 27 44 32 36 38 36 36 37 36 36 43 37 37 23 26 17 35 29 25 22 18 14 27 27 25 24 21 24 32 31 38 27 34 25 40 filter 再來 share 同樣的 weights W=
  61. 度學習 201 記分板的⼤⼩ 注意⼀張原本 的圖, 經⼀個 ⼤⼩的 filter 卷積, 會得到差

    不多⼤⼩ 記分板! ⽽且再來我們會討論到, 我們甚⾄ 更喜歡把記分板做成和原本圖的⼤ ⼩⼀樣。 那要是我們有 10 個記分板, 不就⼗ 倍的數據量!? 8 × 8 3 × 3 6 × 6 35 27 44 32 36 38 36 36 37 36 36 43 37 37 23 26 17 35 29 25 22 18 14 27 27 25 24 21 24 32 31 38 27 34 25 40
  62. 度學習 202 記分板的⼤⼩ 1 0 0 0 0 1 0

    0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 [ 0 1 0 0 1 0 0 1 0 ] padding="valid" 如前述的掃描⽅式, 記分板 ⽐原來圖略⼩, 但邊緣常會 掃不到 (像本例中的直線)。
  63. 度學習 203 記分板的⼤⼩ 我們喜歡把原圖外⾯加圈 0, 讓記分板和原圖⼤⼩⼀ 樣! 注意這次有「看到」直線 了。 0

    0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 [ 0 1 0 0 1 0 0 1 0 ] padding="same" 外⾯加圈 0! 注意和原 圖⼀樣⼤!
  64. 度學習 206 Max-Pooling 35 27 44 32 36 38 36

    36 37 36 36 43 37 37 23 26 17 35 29 25 22 18 14 27 27 25 24 21 24 32 31 38 27 34 25 40 36 44 43 37 26 35 38 34 40 每區選出最⼤的!! 這樣記分板 瞬間變⼩!
  65. 度學習 207 常⾒ CNN 設計架構 Conv Max- Pooling Dense Max-

    Pooling Max- Pooling Conv Conv 可以不斷重覆卷積、池化、卷積、池化... 最後再 接全連結神經網路總結。
  66. 度學習 209 標準 CNN 應⽤ f 感染/未感染 Differentiation of Cytopathic

    Effects Induced by Influenza Virus Infection Using Deep Convolutional Neural Networks Ting-En Wang, Tai-Ling Chao, Hsin-Tsuen Tsai, Pi-Han Lin, Yen-Lung Tsai, Sui-Yuan Chang 流感檢測。
  67. 度學習 212 RNN 的特⾊ x1 ̂ y1 x2 ̂ y2

    ⼀般的神經網路⼀筆輸⼊ 和下⼀筆是沒有關係的...
  68. 度學習 217 遞歸層原理 xt 1 xt 2 xt n ht

    1 ht 2 ht k xt ht 遞歸層 遞歸神經網路的特點是, 遞歸層每個 神經元的輸出我們會收集起, 來成⼀ 個向量 , 我們叫 hidden state: ht ht = ht 1 ht 2 ⋮ hk t 這個 hidden state 向量下次會當成 輸⼊的⼀部份。 ht−1
  69. 度學習 218 遞歸層原理 ht 1 = σ(wX 1 xt 1

    + wX 2 xt 2 + wH 1 ht−1 1 + wH 2 ht−1 2 + b1 ) 我們⽤有兩個輸⼊, 兩個 RNN 神經 元的遞歸層來說明。 每⼀次遞歸層輸出的 2 維 hidden state, 下次會再回傳。 計算⽅式可以看出, 基本上就是 4 個輸⼊的標準全連結神經網路!
  70. 度學習 219 重要應⽤: 對話機器⼈ ሣ࿩ػثਓ 目前的字 下一個字 f ( )

    = RNN 最重要的應⽤之⼀, ⼤概 就是可以⽤⾃然語⾔交談的對 話機器⼈。 我們前⾯有說過, 函數學習機 就是要⽤前⼀個字 (詞), 去預 測下⼀個字 (詞)。
  71. 度學習 221 重要應⽤: 對話機器⼈ 字1 字2 回1 EOS 回1 回2

    回k EOS 相信⼤家還記得, 對話機器⼈的原理。 h1 h2 hT s1 s2 sk−1
  72. 度學習 225 AI 莎⼠⽐亞 電腦覺得⾃⼰ 是莎⼠⽐亞! 潘達洛斯: 唉,我想他應該過來接近⼀天 當⼩的⼩⿆變成從不吃的時候, 誰是他的死亡鏈條和⾂⺠,

    我不應該睡覺。 第⼆位參議員: 他們遠離了我⼼中產⽣的這些苦難, 當我滅亡的時候,我應該埋葬和堅強 許多國家的地球和思想。
  73. 度學習 226 RNN 的訓練 BPTT RNN 的訓練有個很炫的名 字, 叫 backpropagation

    through time (BBPT), 其 實和⼀般神經網路的訓練 沒有什麼不同!
  74. 度學習 227 RNN 的訓練 BPTT x3 x4 x5 ̂ y3

    xm x2 x1 ̂ y1 ̂ y2 ̂ y4 ̂ y5 ̂ ym 我們假設我們的 RNN 函數學習機有個參數叫 , 記得每個時間 點都有這個參數在。雖然是同⼀個參數, 但依時間不同叫 。 w wt w1 w2 w3 w4 w5 wm
  75. 度學習 228 RNN 的訓練 BPTT x3 x4 x5 ̂ y3

    xm x2 x1 ̂ y1 ̂ y2 ̂ y4 ̂ y5 ̂ ym 訓練的時間我們先把整個過程看成⼀個很深的神經網路, 把每個 時間點的 看成不同的參數去調整。每⼀個參數要調多少再平 均, 就得到 要調整的⼤⼩。 wt w w1 w2 w3 w4 w5 wm
  76. 度學習 229 RNN 訓練上的問題 x3 x4 x5 ̂ y3 xm

    x2 x1 ̂ y1 ̂ y2 ̂ y4 ̂ y5 ̂ ym w1 w2 w3 w4 w5 wm backpropagation RNN ⾃然變成「很深的神經網路」成為⼀個訓練上的問題! ∂L ∂wm ∂w6 ∂w5 ∂w5 ∂w4 ∂w4 ∂w3 ∂w3 ∂w2 ∂w2 ∂w1 × × × × × ×
  77. 度學習 230 RNN 訓練上的問題 x3 x4 x5 ̂ y3 xm

    x2 x1 ̂ y1 ̂ y2 ̂ y4 ̂ y5 ̂ ym w1 w2 w3 w4 w5 wm backpropagation 在做 backpropagation 時, 還沒乘到最前⾯, 往往就變成 0 了! 這個問題叫梯度消失 (vanishing gradient)! ∂L ∂wm ∂w6 ∂w5 ∂w5 ∂w4 ∂w4 ∂w3 ∂w3 ∂w2 ∂w2 ∂w1 × × × × × × . . . . . .
  78. 度學習 231 RNN 兩⼤救星 LSTM GRU Long Short Term Memory

    Gated Recurrent Unit 解決 RNN 訓練問 題的兩⼤王牌。
  79. 度學習 232 說⽤ RNN, 其實是⽤ LSTM/GRU 現在說到 RNN, 其實包括原始 RNN,

    LSTM, GRU 等各種變形。 特別要叫原始的 RNN, 我們習慣叫 它 Vanilla RNN, 在 TensorFlow 中是 SimpleRNN。
  80. 度學習 234 RNN 預測全壘打數 f 第 t- 年資料 第 t

    年全壘打數 [Age, G, PA, AB, R, H, 2B, 3B, HR, RBI, SB, BB, SO, OPS+, TB] 輸⼊有 15 個 features: 輸出是分五個區間: 0-9, 10-19, 20-29, 30-39, 40+
  81. 度學習 235 RNN 預測全壘打數 1 3 2 4 5 10-19

    0 1 0 0 0 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ 0-9 10-19 20-29 30-39 40+ 輸出⼀樣做 one- hot encoding。
  82. 度學習 236 RNN 預測全壘打數 f 輸入 15 維向量, 輸出 5

    維向量 (區間)。 一層 LSTM 隱藏層。 輸出層做 softmax。 訓練時每次用 10 年資料。 神經網路函數學習機的設計:
  83. 度學習 237 RNN 預測全壘打數 Mike Trout (LAA) 預測 30-39 實際

    33 Mookie Betts (BOS) 預測 20-29 實際 24 Jose Altuve (HOU) 預測 20-29 實際 24 Kris Bryant (CHC) 預測 30-39 (第二高 20-29) 實際 29 Daniel Murphy (WSH) 預測 20-29 實際 23 Corey Seager (LAD) 預測 20-29 實際 22 2017 預測結果 (2017 年 6 月預測)
  84. 度學習 241 海外 AI 實習計畫 經濟碩 經濟 傳院 應數 經濟

    上海實習 241 暑假到上海、美國、 越南實習, 都是做⼀ 個 AI 的專案。
  85. 度學習 255 建⼀個乾淨的 Anaconda 虛擬環境 > conda create -n tf2-py37

    python=3.7 anaconda ⾃⼰取的虛擬 環境名稱。 指定 Python 版本。 裝完整的 anaconda (⾼⼿很不喜, 但建議 初學這樣做。)
  86. 度學習 256 讓 Jupyter Notebook 找到所有虛擬環境的 Python > conda install

    nb_conda 這樣以後執⾏ Jupyter Notebook 都不⽤再進 去某個虛擬環境! * conda install 是未來我們在 Anaconda 安裝套件的指令。
  87. TensorFlow 2 度學習 270 Mount 你的 Google Drive, 存取資料 要點網址

    copy ⾦鑰 你會需要點網址, 選擇你的 Google 帳號授 權, 然後 copy 出現的⾦鑰, 回來貼在這裡。