機械学習を支える連続最適化

0 2024-06-07 第93回NearMe技術勉強会 Futo Ueno 機械学習を⽀える連続最適化

1 背景 ‧今取り組んでいるタスクでNeural Networkを使いはじめた ‧optimizerの中⾝が気になった ‧調べると⾊々な歴史があった ‧現在よく使われているAdamに⾄るまでの変遷を辿ってみた

2 連続最適化とは離散最適化連続最適化

3 連続最適化とは離散最適化連続最適化

4 連続最適化とは離散最適化連続最適化 → 微分の情報を活⽤する

5 使いどころ Neural Network

10 使いどころ Neural Network update

11 使いどころ Neural Network → minimize update

12 上昇⽅向降下⽅向微分の情報からわかること

13 降下⽅向上昇⽅向上昇⽅向降下⽅向微分の情報からわかること

14 降下⽅向上昇⽅向上昇⽅向降下⽅向微分の情報からわかること → 「降下⽅向」がわかる！

15 微分の情報からわかること定義

16 微分の情報からわかること「降下⽅向」は無数にあるが‧‧‧

17 基本的な⽅法勾配降下法 (Gradient Descent) 学習率：更新量を制御するパラメータ

18 基本的な⽅法勾配降下法 (Gradient Descent) 学習率：更新量を制御するパラメータ⼤⼩

19 基本的な⽅法勾配降下法 (Gradient Descent)

25 基本的な⽅法勾配降下法 (Gradient Descent) update

26 勾配降下法の改良確率的勾配降下法 (SGD; Stochastic Gradient Descent)

33 勾配降下法の改良確率的勾配降下法 (SGD; Stochastic Gradient Descent) update

34 勾配降下法の改良確率的勾配降下法 (SGD; Stochastic Gradient Descent) -利点- ‧1サンプルについて計算を⾏えばよいので楽 (GPUを使う場合は複数サンプルからなるミニバッチを作るなどする)
‧損失の形状が毎回変わるので、局所最適解から脱出できる余地がある

35 勾配降下法の改良

41 勾配降下法の改良確率的勾配降下法 (SGD; Stochastic Gradient Descent) -課題- ‧ 損失の形状が毎回変わるので、⼀貫性に⽋けてしまう
‧ パフォーマンスが学習率の選び⽅に⼤きく依存する

42 勾配降下法の改良確率的勾配降下法 (SGD; Stochastic Gradient Descent) -課題- ‧ 損失の形状が毎回変わるので、⼀貫性に⽋けてしまう
→ momentum SGD, NAG ‧ パフォーマンスが学習率の選び⽅に⼤きく依存する → AdaGrad, RMSProp, Adadelta

43 momentumの導⼊ momentum SGD

51 勾配降下法の改良 (再掲) 確率的勾配降下法 (SGD; Stochastic Gradient Descent) -課題- ‧
損失の形状が毎回変わるので、⼀貫性に⽋けてしまう → momentum SGD, NAG ‧ パフォーマンスが学習率の選び⽅に⼤きく依存する → AdaGrad, RMSProp, Adadelta

52 更新幅の適応的調整 AdaGrad (Adaptive Gradient)

53 更新幅の適応的調整 RMSProp (Root Mean Squared Propagation)

54 更新幅の適応的調整 Adadelta (Adaptive delta)

損失の形状が毎回変わるので、⼀貫性に⽋けてしまう → momentum SGD, NAG ‧ パフォーマンスが学習率の選び⽅に⼤きく依存する → AdaGrad, RMSProp, Adadelta

損失の形状が毎回変わるので、⼀貫性に⽋けてしまう → momentum SGD, NAG ‧ パフォーマンスが学習率の選び⽅に⼤きく依存する → AdaGrad, RMSProp, Adadelta Adam

57 Adam Adam (Adaptive moment estimation)

58 Adam Adam (Adaptive moment estimation) by RMSProp by momentum
補正のための係数

59 Adam Adam (Adaptive moment estimation)

60 Adam Adam (Adaptive moment estimation) by RMSProp → そのまま

61 Adam Adam (Adaptive moment estimation) 補正のための係数 (漸近的には1に近くなる)

62 Adam Adam (Adaptive moment estimation) 補正のための係数 (漸近的には1に近くなる)

63 References ‧ 岡⾕貴之 : 「深層学習」. 講談社, 2023. ‧Adadelta :
Matthew D. Zeiler: ADADELTA: AN ADAPTIVE LEARNING RATE METHOD. arXiv: 1212.5701, 2012. https://arxiv.org/pdf/1212.5701 ‧Adam : Diederik P. Kingma and Jimmy Lei Ba: ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION. arXiv: 1412.6980, 2017. https://arxiv.org/pdf/1412.6980 ‧https://qiita.com/omiita/items/1735c1d048fe5f611f80

64 Appendix -補正係数の由来- ※

65 Thank you

機械学習を支える連続最適化

機械学習を支える連続最適化

More Decks by NearMeの技術発表資料です

Other Decks in Science

Featured

Transcript