慶應義塾大学機械学習基礎06 誤差逆伝播法

情報工学科教授杉浦孔明 [email protected] 慶應義塾大学理工学部機械学習基礎第６回誤差逆伝播法

本講義の到達目標と今回の授業の狙い - - 2 本講義の到達目標 ▪ DNNの基礎理論と実装の関係を理解する ▪ 種々のDNNをコーディングできる今回の授業の狙い
▪ 誤差逆伝播法を習得する ▪ 出席確認： K-LMS上の機械学習基礎のMainページへアクセス

誤差逆伝播法 - - 9

連鎖律（チェインルール、chain rule）の復習 - - 10 ▪ をについて微分せよ

連鎖律（チェインルール、chain rule）の復習 - - 11 ▪ をについて微分せよ → 高校の復習

連鎖律（chain rule）の復習 - - 12 ▪ をについて微分せよ ▪ 偏微分の場合の連鎖律の例
→ → 高校の復習

誤差逆伝播（backpropagation）法の背景 - - 13 ▪ 巨大な合成関数を全パラメータ（例：）について安直に偏微分するのは計算量・精度面で問題 誤差逆伝播法で効率的に計算 入力層
出力層中間層（個）

出力層への重みに関する偏微分を求めよう - - 14 ▪ 出力層への重みに関する偏微分は、連鎖律より以下で求まる

出力層への重みに関する偏微分を求めよう - - 15 ▪ 出力層への重みに関する偏微分は、連鎖律より以下で求まるデルタと定義

出力層への重みに関する偏微分を求めよう - - 16 ▪ 出力層への重みに関する偏微分は、連鎖律より以下で求まるには関係ないためデルタと定義

誤差逆伝播法：デルタを求める - - 17 ▪ 出力層への重みに関する偏微分順伝播時に計算済

誤差逆伝播法：デルタを求める - - 18 ▪ 出力層への重みに関する偏微分 ▪ 例：簡単のため、回帰問題かつ１サンプル分の誤差を考える
活性化関数が恒等写像なら１順伝播時に計算済

誤差逆伝播法：デルタを求める - - 19 ▪ 出力層への重みに関する偏微分 ▪ が求まれば、が得られる
▪ 例：簡単のため、回帰問題かつ１サンプル分の誤差を考える活性化関数が恒等写像なら１同様に考えれば、

誤差逆伝播法：デルタの漸化式を求める - - 20 ▪ 出力層への重みに関する偏微分 ▪ が求まれば、が得られる
▪ デルタの漸化式を求めたい同様に考えれば、 L層のデルタ（計算済）偏微分の連鎖律

誤差逆伝播法：デルタの漸化式を求める - - 21 ▪ デルタの漸化式を求めたい L層のデルタ（計算済）偏微分の
連鎖律の微分

誤差逆伝播法：デルタの漸化式を求める - - 22 ▪ デルタの漸化式が求まった ReLUなら0または1 の微分

誤差逆伝播法：順伝播と逆伝播 - - 23 ▪ まとめると、 ▪ 順伝播 ▪
逆伝播 ▪ デルタの漸化式が求まった ReLUなら0または1

コードとの対応例（１）：インポートおよび構造定義 - - 24 ▪ ニューラルネットの構造 0.1 0.4 0.9
0.5 パラメータの初期値はランダムに設定される ←bias=True

コードとの対応例（２）：順伝播 - - 25 ▪ ニューラルネットの構造 ▪ 訓練サンプル・順伝播・損失関数 0.1
0.4 0.9 0.5

コードとの対応例（３）：逆伝播 - - 26 ▪ ニューラルネットの構造 ▪ E.backward() 以前以後
 0.1 0.4 0.9 0.5 0.weight.data = tensor([[0.1]]) 0.weight.grad = None 0.bias.data = tensor([0.4]) 0.bias.grad = None 2.weight.data = tensor([[0.5]]) 2.weight.grad = None 2.bias.data = tensor([0.9]) 2.bias.grad = None 0.weight.data = tensor([[0.1]]) 0.weight.grad = tensor([[-8.25]]) 0.bias.data = tensor([[0.4]]) 0.bias.grad = tensor([[-2.75]]) 2.weight.data = tensor([[0.5]]) 2.weight.grad = tensor([[-3.85]]) 2.bias.data = tensor([[0.9]]) 2.bias.grad = tensor([[-5.5]])

勾配消失・勾配爆発 - - 27 ▪ 勾配消失問題（vanishing gradient problem） ▪ 逆伝播計算では出力から入力
まで何度も線形変換を行うため、勾配が急速に小さくなることがある ▪ 逆に勾配が発散する場合を勾配爆発問題と呼ぶ ▪ 1980-2000年代まで、ニューラルネットの深層化を阻む問題であった

勾配消失・勾配爆発の緩和 - - 28 ▪ 勾配消失問題（vanishing gradient problem） ▪ 逆伝播計算では出力から入力
まで何度も線形変換を行うため、勾配が急速に小さくなることがある ▪ 逆に勾配が発散する場合を勾配爆発問題と呼ぶ ▪ 1980-2000年代まで、ニューラルネットの深層化を阻む問題であった ▪ 現代では種々の技術により緩和 ▪ バッチ正規化 ▪ 残差接続 ▪ ReLU（微分が１） ▪ ⇔シグモイド関数の場合、最大0.25  0.0625  0.015..  0.0039..  … シグモイド関数の微分

★残差接続（residual connection）[He+ 2016] - - 29 ▪ 層を迂回する近道を設ける接続方法 ▪ 効果：
深層化を可能にした ↑迂回された層が不要なら、ゼロになるよう学習されれば良い ▪ 迂回された層の役割：残差の予測スキップ接続（skip connection）残差ブロック（residual block）

本講義全体の参考図書 - - 30 ▪ ★機械学習スタートアップシリーズこれならわかる深層学習入門瀧雅人著講談社（本講義では、異なる表記を用いることがあるので注意）
▪ ★Dive into Deep Learning (https://d2l.ai/) ▪ 深層学習改訂第2版 (機械学習プロフェッショナルシリーズ) 岡谷貴之著講談社 ▪ ディープラーニングを支える技術岡野原大輔著技術評論社 ▪ 画像認識 (機械学習プロフェッショナルシリーズ) 原田達也著講談社 ▪ 深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ) 坪井祐太、海野裕也、鈴木潤著、講談社 ▪ 東京大学工学教程情報工学機械学習中川裕志著、東京大学工学教程編纂委員会編丸善出版 ▪ パターン認識と機械学習上・下 C.M. ビショップ著丸善出版

参考文献 - - 31 1. Sietsma, J., & Dow, R.
J. (1991). Creating artificial neural networks that generalize. Neural networks, 4(1), 67-79. 2. Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: a simple way to prevent neural networks from overfitting. The journal of machine learning research, 15(1), 1929-1958. 3. Ioffe, S., & Szegedy, C. (2015, June). Batch normalization: Accelerating deep network training by reducing internal covariate shift. In International conference on machine learning (pp. 448- 456). PMLR.

付録 - - 48

DNNの学習におけるGPUの利用 - - 49 ▪ 背景 ▪ CPUによる計算ではDNNの学習に時間がかかりすぎる ▪
GPUで学習を行うには、入力x、ラベルy、モデルの３点をGPUに送る ▪ x = x.to(device) ▪ y = y.to(device) ▪ model = MyMnistNet().to(device)

DNNの学習におけるGPUの利用 - - 50 ▪ 背景 ▪ CPUによる計算ではDNNの学習に時間がかかりすぎる ▪
GPUで学習を行うには、入力x、ラベルy、モデルの３点をGPUに送る ▪ x = x.to(device) ▪ y = y.to(device) ▪ model = MyMnistNet().to(device) ▪ device = torch.device("cuda") ▪ torch.device("cuda") ▪ 複数あるGPUのうちデフォルトのGPUが使用される ▪ torch.device("cpu") ▪ CPUが使用される

慶應義塾大学機械学習基礎06 誤差逆伝播法

慶應義塾大学機械学習基礎06 誤差逆伝播法

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

情報工学科教授杉浦孔明 [email protected] 慶應義塾大学理工学部機械学習基礎第６回誤差逆伝播法

本講義の到達目標と今回の授業の狙い - - 2 本講義の到達目標 ▪ DNNの基礎理論と実装の関係を理解する ▪ 種々のDNNをコーディングできる今回の授業の狙い

誤差逆伝播法 - - 9

連鎖律（チェインルール、chain rule）の復習 - - 10 ▪ をについて微分せよ

連鎖律（チェインルール、chain rule）の復習 - - 11 ▪ をについて微分せよ → 高校の復習

連鎖律（chain rule）の復習 - - 12 ▪ をについて微分せよ ▪ 偏微分の場合の連鎖律の例

誤差逆伝播（backpropagation）法の背景 - - 13 ▪ 巨大な合成関数を全パラメータ（例：）について安直に偏微分するのは計算量・精度面で問題 誤差逆伝播法で効率的に計算 入力層

出力層への重みに関する偏微分を求めよう - - 14 ▪ 出力層への重みに関する偏微分は、連鎖律より以下で求まる

出力層への重みに関する偏微分を求めよう - - 15 ▪ 出力層への重みに関する偏微分は、連鎖律より以下で求まるデルタと定義

出力層への重みに関する偏微分を求めよう - - 16 ▪ 出力層への重みに関する偏微分は、連鎖律より以下で求まるには関係ないためデルタと定義

誤差逆伝播法：デルタを求める - - 17 ▪ 出力層への重みに関する偏微分順伝播時に計算済

誤差逆伝播法：デルタを求める - - 18 ▪ 出力層への重みに関する偏微分 ▪ 例：簡単のため、回帰問題かつ１サンプル分の誤差を考える

誤差逆伝播法：デルタを求める - - 19 ▪ 出力層への重みに関する偏微分 ▪ が求まれば、が得られる

誤差逆伝播法：デルタの漸化式を求める - - 20 ▪ 出力層への重みに関する偏微分 ▪ が求まれば、が得られる

誤差逆伝播法：デルタの漸化式を求める - - 21 ▪ デルタの漸化式を求めたい L層のデルタ（計算済）偏微分の

誤差逆伝播法：デルタの漸化式を求める - - 22 ▪ デルタの漸化式が求まった ReLUなら0または1 の微分

誤差逆伝播法：順伝播と逆伝播 - - 23 ▪ まとめると、 ▪ 順伝播 ▪

コードとの対応例（１）：インポートおよび構造定義 - - 24 ▪ ニューラルネットの構造 0.1 0.4 0.9

コードとの対応例（２）：順伝播 - - 25 ▪ ニューラルネットの構造 ▪ 訓練サンプル・順伝播・損失関数 0.1

コードとの対応例（３）：逆伝播 - - 26 ▪ ニューラルネットの構造 ▪ E.backward() 以前以後

勾配消失・勾配爆発 - - 27 ▪ 勾配消失問題（vanishing gradient problem） ▪ 逆伝播計算では出力から入力

勾配消失・勾配爆発の緩和 - - 28 ▪ 勾配消失問題（vanishing gradient problem） ▪ 逆伝播計算では出力から入力

★残差接続（residual connection）[He+ 2016] - - 29 ▪ 層を迂回する近道を設ける接続方法 ▪ 効果：

本講義全体の参考図書 - - 30 ▪ ★機械学習スタートアップシリーズこれならわかる深層学習入門瀧雅人著講談社（本講義では、異なる表記を用いることがあるので注意）

参考文献 - - 31 1. Sietsma, J., & Dow, R.

付録 - - 48

DNNの学習におけるGPUの利用 - - 49 ▪ 背景 ▪ CPUによる計算ではDNNの学習に時間がかかりすぎる ▪

DNNの学習におけるGPUの利用 - - 50 ▪ 背景 ▪ CPUによる計算ではDNNの学習に時間がかかりすぎる ▪

慶應義塾大学 機械学習基礎06 誤差逆伝播法

慶應義塾大学 機械学習基礎06 誤差逆伝播法

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学機械学習基礎06 誤差逆伝播法

慶應義塾大学機械学習基礎06 誤差逆伝播法