Masahiro Nomura
September 16, 2019

Masahiro Nomura

September 16, 2019

  1. 自己紹介
 • 野村 将寛
 • 株式会社サイバーエージェント AI Lab
 ◦ ハイパーパラメータ最適化

    • 産総研 特定集中研究専門員
 • 東工大小野研究室 博士後期課程1年
 ◦ 進化計算
 • kaggle master
  2. ベイズ最適化
 15 • ハイパーパラメータ最適化において一番人気のある手法
 • 最もベーシックかつOSSとして利用しやすい2手法(✴)を解説
 ◦ GP-EI [Snoek et

    al., 2012]
 ◦ TPE [Bergstra et al., 2011]
 (✴) SMAC [Hutter et al., 2011]はOSSとして利用がしづらいため,発表では省略

  3. ベイズ最適化 : GP-EI [Snoek et al., 2012] 
 16 •

 • 評価値の改善量の期待値(EI)が最大となる点を選択

 29 評価値の改善量

 • ただ,多峰性関数のため最適化は容易ではない (ベイズ最適化一般の話)
 ◦ カテゴリカル,離散変数にはEDA,連続変数はCMA-ES [Bergstra et al., 2011]
 ◦ DIRECT + CMA-ES [Wang et al., 2016]
 ◦ DIRECT + L-BFGS [Calandra et al., 2014]
 31 ガウス過程によるモデル化

  18. ベイズ最適化 : TPE [Bergstra et al., 2011] 
 32 •

    Hyperopt, Optunaがデフォルトで採用しているアルゴリズム
 • EIを使うところまではGP-EIと同じだが,

  19. ベイズ最適化 : TPE [Bergstra et al., 2011] 
 33 p(y|x)を直接モデル化する代わりにp(x|y)とp(y)でモデル化する

    p(y|x) = p(x|y)p(y)/p(x)

  20. ベイズ最適化 : TPE [Bergstra et al., 2011] 
 34 これらの式を用いると,


  21. ベイズ最適化 : TPE [Bergstra et al., 2011] 
 35 引用:

    http://neupy.com/2016/12/17/hyperparameter_optimization_for_neural_netw orks.html
 Hyperopt, Optunaでは,

  22. GP-EI vs. TPE : カテゴリカル変数
 36 TPE
 • カテゴリカル変数を直接扱うことが可能

    • ガウス過程を利用するためには工夫が必要
 • 扱うためには
 ◦ one-hot encoding (OSSではこちらが多い)
 ◦ カテゴリカル変数用のカーネルを設計

  23. GP-EI vs. TPE : 次元数
 37 [Eggensperger et al., 2013]において,

    LR, SVM, LDAのtuningを含む多数のタスクにてGP-EI, TPEを比較.
 • 低次元(~6)の場合
 ◦ GP-EI > TPE
 • 高次元(10~)の場合
 ◦ GP-EI < TPE

  24. GP-EI vs. TPE : 次元数
 38 [Eggensperger et al., 2013]において,

    LR, SVM, LDAのtuningを含む多数のタスクにてGP-EI, TPEを比較.
 • 低次元(~6)の場合
 ◦ GP-EI > TPE
 • 高次元(10~)の場合
 ◦ GP-EI < TPE
 GP-EI :
 次元数の増加で探索空間の体積も指数的に増加 → スケールしづらい
 TPE :

  25. CMA-ES
 39 • 進化計算における最も有力な手法の1つ [Hansen and Ostermeier, 1996]
 • ハイパーパラメータ最適化への適用例も存在

    ◦ CNN [Loshchilov and Hutter, 2016]
 ◦ SVM [Friedrichs and Igel, 2005]
 ◦ HMM, LDA, DNN [Watanabe and Le Roux, 2014]
 • 多変量正規分布から解を生成することで最適化を行う
 ◦ 更新式の一部は自然勾配法に対応 [Akimoto et al., 2010]

  26. CMA-ES
 47 1. 正規分布から解を生成
 2. 全ての解を評価して重み付けする
 3. 正規分布のパラメータを更新
 4. 1.〜3.を繰り返す

 への更新に対応 (一部)

  27. GP-EI vs. CMA-ES : 評価回数
 49 [Hutter et al., 2013]において,

 • 評価回数が少ない(10×次元数)場合 : GP-EI > CMA-ES
 • 評価回数が多い(100×次元数)場合 : GP-EI < CMA-ES 
 (✴) 論文ではSMACを用いたとあるが,ガウス過程を用いたSMACとあるので実質GP-EIと同じ

  28. GP-EI vs. CMA-ES : 評価回数
 50 [Hutter et al., 2013]において,

 • 評価回数が少ない(10×次元数)場合 : GP-EI > CMA-ES
 • 評価回数が多い(100×次元数)場合 : GP-EI < CMA-ES 
 (✴) 論文ではSMACを用いたとあるが,ガウス過程を用いたSMACとあるので実質GP-EIと同じ
 GP-EI :
 評価回数が増えても局所的な収束性はそれほど上 がらない

  29. ベイズ最適化 vs. CMA-ES : 時間計算量
 51 iteration数tに対する時間計算量について,
 • GP-EI :

    O(t^3) … ガウス過程による推論にカーネル行列の逆行列が必要 (✴)
 • TPE : O(t)
 • CMA-ES : O(1) … iteration数に依存しない
 (✴) 計算量を抑えたガウス過程の推論も多々研究があるが,今回は省略

  30. 注意
 53 ノーフリーランチ定理 [Lockett and Miikkulainen, 2016] より,

 → 「この手法がいい!」と一概に言うのは難しい

  31. Hyperband [Li et al., 2018]
 75 絞り込み方を変えながらSuccessive Halvingを行う
 • 積極的に絞り込みをするターン

    • もう少しゆっくり絞り込むターン
 • 全く絞り込まないターン
 • ...
 引用: [Li et al., 2018]

  32. BOHB [Falkner et al., 2018]
 76 Hyperband(HB)とベイズ最適化(BO)両方のメリットを取り入れた手法
 • Hyperband

 Successive Halvingを実行
 • ベイズ最適化
 ◦ これまでに得られたデータから
 引用: [Falkner et al., 2018]

  33. Population Based Training (PBT) [Jaderberg et al., 2017]
 77 Sequential

    SearchとRandom Searchのいいとこ取り

  34. Sequential Search (ベイズ最適化など)
 78 • メリット : 効率的

    • デメリット : 並列化が難しく時間がかかる
 [Jaderberg et al., 2017]
  35. Population Based Training (PBT) [Jaderberg et al., 2017] 

    各ポイントで最良のNNモデルを複製 + ハイパラをちょっと変えて実行

  36. Population Based Training (PBT) [Jaderberg et al., 2017] 

    各ポイントで最良のNNモデルを複製 + ハイパラをちょっと変えて実行

  37. Population Based Training (PBT) [Jaderberg et al., 2017] 

    各ポイントで最良のNNモデルを複製 + ハイパラをちょっと変えて実行

  38. 今日紹介した手法すべてにPython OSSが存在
 88 • GP-EI : GpyOpt
 • TPE :

 • CMA-ES : pycma
 • Successive Halving : Optuna
 • Hyperband : Ray
 • BOHB : HpBandSter
 • PBT : Ray
 • MTBO : Ax (BoTorch)

  39. 今日紹介した手法すべてにPython OSSが存在
 89 • GP-EI : GpyOpt
 • TPE :

 • CMA-ES : pycma
 • Successive Halving : Optuna
 • Hyperband : Ray
 • BOHB : HpBandSter
 • PBT : Ray
 • MTBO : Ax (BoTorch)
 • Define-by-Runスタイル

  40. 今日紹介した手法すべてにPython OSSが存在
 90 • GP-EI : GpyOpt
 • TPE :

 • CMA-ES : pycma
 • Successive Halving : Optuna
 • Hyperband : Ray
 • BOHB : HpBandSter
 • PBT : Ray
 • MTBO : Ax (BoTorch)
 • Facebookが5月にF8で発表

  41. 今日紹介した手法すべてにPython OSSが存在
 91 • GP-EI : GpyOpt
 • TPE :

 • CMA-ES : pycma
 • Successive Halving : Optuna
 • Hyperband : Ray
 • BOHB : HpBandSter
 • PBT : Ray
 • MTBO : Ax (BoTorch)
 • 強化学習のRLlibとの相性が良い

  42. まとめ
 93 問題の構造について
 • 利用できない場合(Black-box最適化)
 • 利用できる場合(Gray-box最適化)

    • ベンチマーク問題が急速に準備されつつある[Klein and Hutter, 2019],[Ying et al., 2019]
 → 解きたい問題に応じた適切な手法選択が可能になることを期待
 (✴) ランダムサーチがSOTAと変わらないというのがNASであったりする [Li and Talwalkar, 2019],[Sciuto et al., 2019]

  47. 102

  48. facebook/Ax
 104 • 縮小推定 + Thompson Sampling (https://ax.dev/tutorials/factorial.html)
 • 良い選択肢に対し多数のトラフィックを流せる

    → A/Bテストの効率化
 • 今後FBの他ツールとの連携が予定 (https://github.com/facebook/Ax/issues/77)

  49. 注意点 : pfnet/optuna
 107 1. 低Budget時にSuccssive Halvingの絞り込みが積極的すぎるかも
 • https://github.com/pfnet/optuna/pull/404

 2. 数万回評価する場合などにCMA-ESを使うと計算コストが大きい
 • 現状の実装は毎iterationで正規分布を1から更新する
 ◦ 本来のCMA-ESは評価回数に計算量は依存しない
 • 高Budget時にはpycmaの利用がおすすめ