Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習による適応的実験計画

kota matsui
August 29, 2023

 機械学習による適応的実験計画

ベイズ最適化と能動的レベル集合推定の基礎と実践に関するセミナー資料

kota matsui

August 29, 2023
Tweet

More Decks by kota matsui

Other Decks in Technology

Transcript

  1. Table of contents 1. はじめに: 適応的実験計画の基本概念 2. ベイズ線形回帰モデル 3. ガウス過程回帰モデル

    4. ベイズ最適化 5. 獲得関数の設計 6. レベル集合推定のための能動学習 7. より複雑な問題に対するベイズ最適化 8. 事例紹介 松井 (名古屋大) 機械学習による適応的実験計画 1 / 151
  2. 本スライドの内容 ▶ 機械学習による適応的実験計画の基本的事項の理解を 目指す • 適応的実験計画 (または能動学習) 問題の説明 • 統計モデリングの方法

    • ベイズ最適化 · 能動的レベル集合推定のアルゴリズム • 実例の紹介 ▶ 以下の文献を特に参考にしている • “Bayesian Optimization” [Garnett (2022)] (出版前の書籍) • “Taking the Human Out of the Loop: A Review of Bayesian Optimization” [Shahriari+ (2015)] • “Gaussian Processes for Machine Learning” [Rasmussen & Williams (2006)] • “ガウス過程と機械学習” [持橋 & 大羽 (2019)] • “ベイズ推論による機械学習” [須山 (2017)] 松井 (名古屋大) 機械学習による適応的実験計画 2 / 151
  3. 統計的実験計画で扱う「実験」とは ある条件 x を入力し, その条件の下での実験結果 y を観測する システム  

        ! "%     ($ ')& ($ #    松井 (名古屋大) 機械学習による適応的実験計画 3 / 151
  4. 統計的実験計画で扱う「実験」とは ある条件 x を入力し, その条件の下での実験結果 y を観測する システム % 

    47 2 $ 20     %  & -3 8#  "51,*)47       '+   "     !#   $!#   ! 47 .(/6   松井 (名古屋大) 機械学習による適応的実験計画 4 / 151
  5. 「実験」の抽象化: ブラックボックス関数 入力条件 x と観測結果 y の間の関係を f と書くと, f

    は実験そ のもの (これをブラックボックス関数と呼ぶ) 1  ε    x f(x) y = f(x) + ε           適応的実験計画 (or 能動学習) 逐次的に教師データを収集しながらブラックボックス関数 f に関する統計的推論を行うための方法論 1簡単のため観測誤差 ε は分散既知の正規分布 N(0, σ2) に従うと仮定する 松井 (名古屋大) 機械学習による適応的実験計画 5 / 151
  6. 適応的実験計画の問題設定 ▶ 入力の候補集合 X が与えられている • 有限集合 X = {x1

    , ..., xn } の場合をプール型といい • 連続的な集合 (e.g. X = [0, 1]) の場合をクエリ型という ▶ f を評価して出力 y = f(x) を得るにはコストがかかる このとき, できるだけ少ないコストで £ 関数推定 (回帰) : f そのものを知りたい f∗ = arg min ˆ f∈F n i=1 (f(xi) − ˆ f(xi))2 £ 最適化 : f を最適化する入力パラメータが知りたい x∗ = arg max x∈X f(x) 松井 (名古屋大) 機械学習による適応的実験計画 6 / 151
  7. 従来の実験計画 1 2 3 4 5 6 7 8 9

    10 11 12 13 14 63 62 61 15 19 28 37 46 55 16 17 18 ▶ 予め実験を行う候補を列挙しておき (実験計画法),挙げら れた候補条件に対しては網羅的に実験を行う ▶ 候補条件の列挙はデータとは独立して行われる 松井 (名古屋大) 機械学習による適応的実験計画 7 / 151
  8. 適応的実験計画のイメージ モデルの推定, 実験条件の指定, データの観測を繰り返す ブラックボックス関数の統計モデル D = 次の実験条件を指定 観測したをデータ集合に加える 統計モデルを更新

    指定された条件 で実実験を実施 ブラックボックス関数値 を観測 初期観測データ 松井 (名古屋大) 機械学習による適応的実験計画 8 / 151
  9. ブラックボックス関数の統計モデル モデルに要求される性質 ▶ 更新可能かつ評価可能 • モデルの計算は低コストかつデータ観測毎に更新したい ▶ f の推定の不確実性を定量的に評価可能 •

    f の推定に対する確信度を適応的実験計画に利用 £ ベイズ線形回帰モデル (第2章) ▶ 線形モデル ˆ f(x) = w⊤x で f を近似 ▶ w は正規分布に従うと仮定: w ∼ N(0, Σ) £ ガウス過程回帰モデル (第3章) ▶ ノンパラメトリックモデル ˆ f で f を近似 ▶ ˆ f はガウス過程に従うと仮定: ˆ f ∼ GP(µ(x), k(x, x′)) 松井 (名古屋大) 機械学習による適応的実験計画 9 / 151
  10. モデルの不確実性 不確実性は適応的実験計画に有用な情報をもたらす      ▶ 知識不足に起因する不確実性 :

    主にデータ不足によるもの • 未学習状態 • モデルの表現能力が不適切 ▶ 偶然変動による不確実性 : 主にノイズによるもの 松井 (名古屋大) 機械学習による適応的実験計画 10 / 151
  11. 探索と活用のトレードオフ 探索 事前知識のないパラメータに対する実験を行う ▶ これまでよりも良くなるかもしれない未知のパラメータ を試す 活用 実験済みのパラメータ値に近いパラメータに対する実験 を行う ▶

    これまでに良かったパラメータを活かす 探索と活用のトレードオフ 探索のみを行っていると過去の実験結果が活かせず, 活用ば かり行っているとまだ見ぬ良いパラメータを発見できない 適応的実験計画では, 両者のバランスを取りながら最適なパラ メータを探す 松井 (名古屋大) 機械学習による適応的実験計画 11 / 151
  12. 関数推定のための能動学習の例 Input Output Step 0 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151
  13. 関数推定のための能動学習の例 Input Output Step 1 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151
  14. 関数推定のための能動学習の例 Input Output Step 2 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151
  15. 関数推定のための能動学習の例 Input Output Step 3 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151
  16. 関数推定のための能動学習の例 Input Output Step 4 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151
  17. 関数推定のための能動学習の例 Input Output Step 5 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151
  18. 関数推定のための能動学習の例 Input Output Step 6 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151
  19. 関数推定のための能動学習の例 Input Output Step 7 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151
  20. 関数推定のための能動学習の例 Input Output Step 8 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151
  21. 関数推定のための能動学習の例 Input Output Step 9 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151
  22. 最適化のための能動学習の例 Input Output Step 0 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151
  23. 最適化のための能動学習の例 Input Output Step 1 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151
  24. 最適化のための能動学習の例 Input Output Step 2 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151
  25. 最適化のための能動学習の例 Input Output Step 3 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151
  26. 最適化のための能動学習の例 Input Output Step 4 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151
  27. 最適化のための能動学習の例 Input Output Step 5 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151
  28. 最適化のための能動学習の例 Input Output Step 6 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151
  29. 最適化のための能動学習の例 Input Output Step 7 Objective Prediction Observations Next Sample

    Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151
  30. 線形回帰モデル ブラックボックス関数 f をパラメータ w = (w1, ..., wd) を用い

    た線形モデル ˜ f(x) = w⊤x = d j=1 wjxj で近似することを考える. このとき, 観測系は y = w⊤x + ε, ε ∼ N(0, σ2) とモデル化できる. これは観測 y に対して正規モデル p(y | w, x) = N(w⊤x, σ2) を仮定することに対応 松井 (名古屋大) 機械学習による適応的実験計画 14 / 151
  31. 線形回帰モデルのパラメータ最適化 i 方程式 ∂ ∂w n i=1 (yi − ˆ

    yi)2 = 0 を w に関して解く 単回帰の場合 ∂ ∂w0 n i=1 (yi − ˆ yi)2 = 0, ∂ ∂w1 n i=1 (yi − ˆ yi)2 = 0 ⇔ w0 = ( n i=1 x2 i )( n i=1 yi) − n i=1 xi n i=1 xiyi n n i=1 x2 i − ( n i=1 xi)2 , w1 = n n i=1 xiyi − n i=1 xi n i=1 yi n n i=1 x2 i − ( n i=1 xi)2 松井 (名古屋大) 機械学習による適応的実験計画 16 / 151
  32. 線形回帰モデルのパラメータ最適化 ii 方程式 ∂ ∂w n i=1 (yi − ˆ

    yi)2 = 0 を w に関して解く 重回帰の場合 (行列 · ベクトル表記) 2       ˆ y1 y2 . . . yn       y =       1 x11 x12 · · · x1d 1 x21 x22 · · · x2d . . . . . . 1 xn1 xn2 · · · xnd       X         w0 w1 w2 . . . wd         w ∂ ∂w n i=1 (yi − ˆ yi)2 = ∂ ∂w y⊤y − 2w⊤(X⊤y) + w⊤X⊤Xw = 0 ⇔ X⊤Xw = X⊤y (正規方程式) w = (X⊤X)−1X⊤y 2 X を計画行列とよぶ 松井 (名古屋大) 機械学習による適応的実験計画 17 / 151
  33. 線形モデルによる非線形関数のモデル化 入力 x を特徴写像 ϕ で非線形変換する:ϕ = ϕ(x) 例: x

    = (1, x1, x2) として, ▶ ϕ(x) = (1, x1, x2, x2 1 , x2 2 ) ▶ ϕ(x) = (1, x1, x2, sin(x1), sin(x2)) Φ = (ϕ1, ..., ϕn) とおくと線形モデルは一般に以下で書ける       y1 y2 . . . yn       y =       1 ϕ1 (x1) · · · ϕD (x1) 1 ϕ1 (x2) · · · ϕD (x2) . . . . . . 1 ϕ1 (xn) · · · ϕD (xn)       Φ          w0 w1 . . . . . . wD          w このとき, パラメータ w は w = (Φ⊤Φ)−1Φ⊤y で推定できる 松井 (名古屋大) 機械学習による適応的実験計画 18 / 151
  34. ベイズ線形モデルによるブラックボックス関数の近似 ▶ ここまでのモデルでは線形モデルのパラメータ w は決定 論的に扱っている ▶ ベイズ線形回帰モデルでは, w に対して事前分布

    p(w) を仮定 • w の取りうる値の範囲と実現可能性の度合いを表現 • 以下では平均 0, 分散共分散行列 Σ の正規分布を考える: w ∼ p(w) = N(0, Σ) 松井 (名古屋大) 機械学習による適応的実験計画 19 / 151
  35. ベイズ線形回帰 i 事前分布と尤度関数 ▶ 事前分布 (平均 0 の d 変量正規分布)

    p(w) = N(0, Σ) = 1 √ 2π d |Σ| exp − 1 2 wT Σ−1w ▶ 観測 y = (y1, ..., yn) の分布 (尤度関数) p(y|X, w) = N(Xw, σ2In) = 1 √ 2πσ2 n exp − 1 2σ2 (y − Xw)T (y − Xw) 松井 (名古屋大) 機械学習による適応的実験計画 20 / 151
  36. ベイズ線形回帰 ii ベイズの定理 観測データを使って事前分布を更新する ベイズの定理 事後分布 = 尤度関数 × 事前分布

    周辺尤度 ▶ 事後分布 (データ X, y 観測後の w の条件付き分布) p(w | X, y) = p(y | X, w)p(w) p(y | X) = p(y | X, w)p(w) p(y | X, w)p(w)dw ∝ p(y | X, w)p(w) 松井 (名古屋大) 機械学習による適応的実験計画 21 / 151
  37. ベイズ線形回帰 iii 事後分布の導出 右辺の計算 (細かい式変形は省略) p(y | X, w)p(w) ∝

    exp − 1 2σ2 (y − Xw)T (y − Xw) exp − 1 2 wT Σ−1w ∝ exp − 1 2 (w − ¯ w)T A(w − ¯ w) ▶ ¯ w = 1 σ2 A−1Xy ▶ A = 1 σ2 XXT + Σ−1 以上より, 以上より, w の事後分布は再び正規分布になる3 p(w | X, y) = N( ¯ w, A−1) 3正規分布を事前分布としたとき, データ X, y を観測した下での w の事後 分布は再び正規分布となる (共役事前分布) 松井 (名古屋大) 機械学習による適応的実験計画 22 / 151
  38. ベイズ線形回帰 iv : 事後分布を利用した予測 ▶ 新たな点 xnew における関数値 f(xnew) の予測分布の計算:

    f(xnew) | X, y ∼ N(x⊤ new ¯ w, x⊤ new A−1xnew) ▶ 予測分布による学習  f(x) = (1, x)⊤w f(x) = (1, x, x2)⊤w   f(x) = (1, x, x2, x3)⊤w • モデルのとり方で表現力が変わる → モデル選択 松井 (名古屋大) 機械学習による適応的実験計画 23 / 151
  39. ベイズ線形回帰 iV p(w) w p(w) f(x) = w x p(w

    | X, y) ↓ w p(w | X, y) w 松井 (名古屋大) 機械学習による適応的実験計画 24 / 151
  40. 事後分布に基づく w の点推定 事後分布を使って以下のような w の点推定も可能 最大事後確率推定 (Maximum a posteriori

    estimation, MAP 推 定) 1.「データ X, y を観測した」という条件の下での w の事後 分布 p(w | X, y) を導出 2. p(w | X, y) が最大となる点 (すなわち p(w | X, y) の最頻 値) を w の推定値 ˆ wMAP とする 事前分布が正規分布の場合 ▶ w の事後分布: w | X, y ∼ N( ¯ w, A−1) ▶ 正規分布では最頻値 = 平均 → ˆ wMAP = ¯ w ただし予測の不確実性を考慮できていない (分散項を無視して しまう) 松井 (名古屋大) 機械学習による適応的実験計画 25 / 151
  41. ノンパラメトリックモデル:より柔軟なモデリングへ ベイズ線形回帰モデルでは ▶ f に線形モデル ˆ f(x) = w⊤x を仮定

    • モデル (基底関数) を上手く選べば複雑な非線形関数でもモ デル化できる ▶ しかし, 入力 x の次元に応じて推定しなければならないパ ラメータ w の次元が指数的に増加 (次元の呪い) → パラメータを積分消去しノンパラメトリックに扱うことで 次元の呪いを回避 ノンパラメトリックモデリング パラメータによる特定の関数形を指定せず, より柔軟なモデ リングを行なう 松井 (名古屋大) 機械学習による適応的実験計画 26 / 151
  42. ベイズ線形回帰のノンパラ化 i ▶ 観測系の確率モデル (再掲) : y ∼ N(w⊤x, σ2)

    ▶ ベイズ線形回帰では, w に対して平均 0 の正規分布を事前 分布として仮定した: p(w) = N(0, Σ) ▶ このとき, 観測値 y の分布から w を積分消去できる: p(y | X, σ) = p(y | X, w, σ2)p(w)dw = N(Xw, σ2I)N(0, Σ)dw = N(0, XΣX⊤ + σ2I) 松井 (名古屋大) 機械学習による適応的実験計画 27 / 151
  43. ベイズ線形回帰のノンパラ化 ii ▶ 入力 xi を特徴写像 ϕ で非線形変換する:ϕi = ϕ(xi)

    このときの計画行列を Φ = (ϕ1, ..., ϕn) とおく =⇒ 観測の分布は Φ を用いて以下のような表現になる p(y | Φ, σ) = N(0, ΦΣΦ⊤ + σ2I) (1) ▶ ΦΣΦ⊤ は半正定値対称行列であり, 非線形変換した特徴の Σ による内積を表す: ϕ⊤ i Σϕj = ⟨ϕi, ϕj⟩Σ, i, j = 1, ..., n ▶ 上式を見ると, 変換後の特徴 ϕi に関する内積さえ計算でき れば事後分布は計算可能であることに気づく. 松井 (名古屋大) 機械学習による適応的実験計画 28 / 151
  44. ベイズ線形回帰のノンパラ化 iii ▶ そこで, k(xi, xj) = ⟨ϕi, ϕj⟩Σ となるようなカーネル関数

    k(xi, xj) を取る • 左辺が計算できれば事後分布を求めるには十分で, 変換後 の特徴 ϕi を直接計算する必要はない (カーネルトリック): p(y | Φ, σ2) = N(0, K + σ2I), ここで, Ki,j = k(xi , xj ) (カーネル行列) ▶ カーネル関数は, 入力 xi, xj の間の類似度を測っている • “近い入力に対応する出力は似ている” という性質を表現 松井 (名古屋大) 機械学習による適応的実験計画 29 / 151
  45. カーネル関数とカーネルトリック Example 1 (線形カーネル) 自然数 d に対して k を以下で定める: k(x,

    x′) = d i=0 xix′i ▶ 例えば d = 2 のとき k(x, x′) = 1 + xx′ + x2x′2 ▶ これは, x = (1, x)⊤, x′ = (1, x′)⊤ に対して ϕ(x) = (1, x, x2)⊤, ϕ(x′) = (1, x′, x′2)⊤ で非線形変換した 特徴量の間の通常の内積 ϕ(x)⊤ϕ(x′) を計算していること に相当 松井 (名古屋大) 機械学習による適応的実験計画 30 / 151
  46. カーネル関数とカーネルトリック Example 2 (ガウスカーネル (二乗指数カーネル)) x ∈ R とし, θ

    > 0 に対して k を以下で定める: k(x, x′) = exp −θ|x − x′|2 k は以下のように書き換えられる: k(x, x′) = exp { −θ(x2 + x′2 ) } × ( 1 · 1 + √ 2θ 1! x · √ 2θ 1! x′ + √ (2θ)2 2! x2 · √ (2θ)2 2! x′2 + · · · ) これは特徴量 ϕ(x) を無限次元のベクトル ϕ(x) = exp{−θx2} ( 1, √ 2θ 1! x, √ (2θ)2 2! x2, ... ) ⊤ としたときの内積 ϕ(x)⊤ϕ(x′) を計算していることに相当 松井 (名古屋大) 機械学習による適応的実験計画 31 / 151
  47. カーネル関数とカーネルトリック ▶ 無限次元ベクトル ϕ(x) = exp{−θx2} ( 1, √ 2θ

    1! x, √ (2θ)2 2! x2, ... ) ⊤ に対して直接 ϕ(x)⊤ϕ(x′) を計算する?→ 厳しい ▶ しかしカーネル関数 k(x, x′) = exp −θ|x − x′|2 を使えば 右辺の計算は一瞬 ▶ しかもカーネル関数 k の中には特徴量 ϕ(x) が登場しない ので, ϕ(x) を具体的に考えなくて良い (カーネルトリック) どんなカーネル関数 k が上の性質を満たすのか? 命題 ([福水 2010] の命題 2.6 + 定理 2.11) 正定値カーネルk に対して k(x, x′) = ϕ(x)⊤ϕ(x′) を満たすよ うな特徴写像 ϕ が 1 対 1 に存在する 松井 (名古屋大) 機械学習による適応的実験計画 32 / 151
  48. ガウス過程 ベイズ線形回帰のノンパラ化は, f のガウス過程によるモデリ ングに対応する Definition 1 (ガウス過程の数学的な定義) 確率過程 {Xt}t∈T

    がガウス過程であるとは, 任意の n ∈ N と 任意の t1, ..., tn ∈ T に対して (Xt1 , ..., Xtn ) が n 次元正規分布 に従うことと定義する. ▶ f(x) を x に関する確率変数の無限列と見なすことで確率 過程として取り扱う 松井 (名古屋大) 機械学習による適応的実験計画 33 / 151
  49. ガウス過程の特徴づけ ▶ ガウス過程は, 平均関数とカーネル関数 µ(x) = E[f(x)] k(x, x′) =

    E[(f(x) − µ(x))(f(x′) − µ(x′)] によって特徴づけることができる (µ と k を決めるとガウ ス過程が決まる) • 平均関数とカーネル関数をどう設定すれば良いかは後述 ▶ 関数 f がガウス過程に従うことを以下で表す: f(x) ∼ GP(µ(x), k(x, x′)) 松井 (名古屋大) 機械学習による適応的実験計画 34 / 151
  50. ガウス過程によるモデリング i 記号の用意 ▶ 入力点: x1, ..., xn ▶ 未知の関数値:

    fi = f(xi) ▶ 観測値: yi = fi + εi , εi ∼ N(0, σ2) このとき, f(x) ∼ GP(µ(x), k(x, x′)) ⇐⇒ f | X ∼ N(m, K), yi | fi, σ2 ∼ N(fi, σ2) ここで, mi = µ(xi), Ki,j = k(xi, xj). → 関数値 f = (f1, ..., fn) が n 変量正規分布であり, 観測値 yi は 平均 fi の正規分布となるモデル 松井 (名古屋大) 機械学習による適応的実験計画 35 / 151
  51. ガウス過程によるモデリング ii        

                " !"              松井 (名古屋大) 機械学習による適応的実験計画 36 / 151
  52. ガウス過程によるモデリング iii 予測分布 Dn = {(xi, yi)}n i=1 を既観測点とし, x

    を任意のテスト点とする. このとき, 関数値 f(x) は Dn を観測したという条件の下で正規 分布に従う (予測分布): f(x) | Dn ∼ N(µn(x), σ2 n (x)) ここで, µn(x) 及び σ2 n (x) はそれぞれ予測平均と予測分散4 と呼 ばれ, µn(x) = µ(x) + k(x)⊤(K + σ2I)−1(y − m) σ2 n (x) = k(x, x) − k(x)⊤(K + σ2I)−1k(x) と書ける. ここで, k(x) = (k(x, x1), ..., k(x, xn)) 4 x における関数値 f(x) の予測値と予測の不確実性に対応 松井 (名古屋大) 機械学習による適応的実験計画 37 / 151
  53. ガウス過程回帰の実行例 ▶ 黒破線: 真の関数 ▶ 青線: ガウス過程の平均関数 ▶ 青枠: 予測平均

    ±1.96× √ 予測分散 (95% ベイズ信用区間) ▶ 赤点: 観測点 松井 (名古屋大) 機械学習による適応的実験計画 38 / 151
  54. カーネル関数の選択 カーネル関数の役割 ▶ 目的関数に対する仮定を表現する ▶ データ点に対して “類似度” を定義する • 近い入力の出力はやはり近いという気分を表す

    • テストデータ点に近い学習データ点は, 前者の予測に対し て十分に informative であることが期待される. 様々なカーネル関数が提案されているが, ここでは 1. 二乗指数カーネル (ガウスカーネル) 2. Matérn カーネル の 2 種類を紹介する. 松井 (名古屋大) 機械学習による適応的実験計画 39 / 151
  55. 二乗指数カーネル kSE(x, x′) = λ exp − ∥x − x′∥2

    2ℓ2 ▶ λ, ℓ は超パラメータ ▶ このカーネル関数で定義したガウス過程からのサンプルは 滑らかな関数となる 松井 (名古屋大) 機械学習による適応的実験計画 40 / 151
  56. Matérn カーネル kMat´ ern(x, x′) = 21−ν Γ(ν) √ 2νr

    ℓ ν Kν √ 2νr ℓ ▶ r = (x − x′)⊤Λ(x − x′) ▶ ν, ℓ は超パラメータで, Kν は修正ベッセル関数 ▶ 特に ν = 3/2 及び ν = 5/2 の場合がよく用いられる • ν = 3/2 のとき k3/2 (r) = 1 + √ 3r ℓ exp − √ 3r ℓ • ν = 5/2 のとき k5/2 (r) = 1 + √ 5r ℓ + 5r2 3ℓ2 exp − √ 5r ℓ 松井 (名古屋大) 機械学習による適応的実験計画 41 / 151
  57. カーネル関数の超パラメータの影響 i カーネル関数の超パラメータを適切に調整する必要がある e.g. 二乗指数カーネル kSE(x, x′) = λ exp

    −∥x−x′∥2 2ℓ2 ▶ 左: 小さい値スケール (λ = 0.2) の場合のサンプルパス ▶ 右: 大きい値スケール (λ = 2.0) の場合のサンプルパス 松井 (名古屋大) 機械学習による適応的実験計画 43 / 151
  58. カーネル関数の超パラメータの影響 ii カーネル関数の超パラメータを適切に調整する必要がある e.g. 二乗指数カーネル kSE(x, x′) = λ exp

    −∥x−x′∥2 2ℓ2 ▶ 左: 小さい長さスケール (ℓ = 0.2) の場合のサンプルパス ▶ 右: 大きい長さスケール (ℓ = 2.0) の場合のサンプルパス 松井 (名古屋大) 機械学習による適応的実験計画 44 / 151
  59. カーネル関数の超パラメータの最適化 ▶ 値スケールや長さスケールを最適化したい ▶ 周辺尤度 (モデルエビデンス) 最大化基準がよく用いられ る 5: θ∗

    = arg max θ p(y | X, θ) = arg max θ p(y, f | X, θ)p(f)df • θ はハイパーパラメータ, y = (y1 , ..., yn ), X = (x⊤ 1 , ..., x⊤ n ) は観測データを表す • 尤度をハイパーパラメータのみに依存する関数にしたもの • 直感的にはブラックボックス関数 f を確率モデルから積分 消去 (周辺化) したものと解釈する 5GPy や GPyTorch などのガウス過程用ライブラリでは周辺尤度の勾配法 (e.g. L-BFGS) での最適化をデフォルトで採用している 松井 (名古屋大) 機械学習による適応的実験計画 45 / 151
  60. カーネル関数の超パラメータの最適化 実際の最適化は対数周辺尤度最大化で行われることが多い ガウス過程モデルにおける対数周辺尤度: log p(y | X, θ) = −

    1 2 (y − mθ)⊤(Kθ + σ2I)−1(y − mθ) − 1 2 log |Kθ + σ2I| − n 2 log 2π ▶ mθ , Kθ はハイパーパラメータ θ の下での平均ベクトルと カーネル行列を表す ▶ |Kθ + σ2I|: Kθ + σ2I の行列式 ▶ log p(y | X, θ) を最大化して θ を決定する • ∂ ∂θ log p(y | X, θ) を計算して勾配法を使う (L-BFGS 法など) • MCMC 法 (局所解にはまりにくい) 松井 (名古屋大) 機械学習による適応的実験計画 46 / 151
  61. 事前分布の平均関数をどう取るか ▶ 平均関数は真の関数に対する事前知識を表現 ▶ 実応用の際には, 定数 µ(x) ≡ µ0 とすることが多い

    (特に µ0 = 0) • 観測データを変換して µ = 0 とみなせることが多い ▶ 専門家による事前知識などによって平均関数 µ が適切に設 計できる場合, それを用いた方が学習が効率化できる可能 性はある 松井 (名古屋大) 機械学習による適応的実験計画 47 / 151
  62. ガウス過程回帰に基づく能動学習 (関数推定) (Recall) 関数推定問題 f∗ = arg min ˆ f∈F

    n i=1 (f(xi) − ˆ f(xi))2 ▶ 真の関数 f を全域で精度良く推定したい ▶ 自然な探索方針: 予測モデルの不確実性が大きい入力点を観測点に選ぶ → ガウス過程回帰モデルの予測分散が最大となる点で観 測を行う (不確実性サンプリング) : xnext = arg max x σ2 n (x) 松井 (名古屋大) 機械学習による適応的実験計画 48 / 151
  63. ガウス過程回帰に基づく能動学習 (関数推定) の実行例 不確実性サンプリングによる能動学習 0 1 2 3 4 5

    x −2 0 2 4 6 8 10 12 f(x) iteration 1 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f(x) iteration 2 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f(x) iteration 3 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f(x) iteration 4 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f(x) iteration 5 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f(x) iteration 6 µ(x) f(x) µ(x) ± 1.96σ(x) next observed ▶ ガウス過程回帰によって推定された関数の不確実性が最も 大きい点 (図の黄色の点) が常に選ばれるような探索方針 松井 (名古屋大) 機械学習による適応的実験計画 49 / 151
  64. ガウス過程回帰モデルの評価: 予測誤差と不確実性   $"  $!#   

       $"     $" $        $" $! 松井 (名古屋大) 機械学習による適応的実験計画 50 / 151
  65. 正規分布しない出力を持つ問題への拡張 i 観測 y が連続値でなくカテゴリ変数や順序変数の場合 (分類問 題など), その確率モデルとして正規分布を仮定するのは不適切 £ 一般化線形モデル

    リンク関数 (非線形変換) g : Rd → R を導入し, ブラックボック ス関数のモデルとして f(x) = g−1(w⊤x) を考える. 松井 (名古屋大) 機械学習による適応的実験計画 51 / 151
  66. 正規分布しない出力を持つ問題への拡張 ii Example 1 (ロジスティック回帰) 観測が 2 値 (y =

    0 or 1) のとき, y = 1 となる確率 p = P(y = 1) をモデリングしたい. いま, 観測のオッズ p 1−p に 対して log p 1 − p = w⊤x なるモデルを考える (対数オッズに線形モデルを仮定). このとき, データ x を観測した下での y = 1 となる事後確率は p(y = 1 | x) = 1 1 + exp{−w⊤x} と書ける. 右辺はロジット変換 g−1 = 1/1 + e−z をリンク関数 として採用していることに相当する. 松井 (名古屋大) 機械学習による適応的実験計画 52 / 151
  67. パラメトリックモデリング i 特に y ∈ {+1, −1} の場合 (2 値判別)

    を考える. ▶ リンク関数 g : R → (0, 1) によって P(y | x, w) = g(yw⊤x) と書けると仮定 (パラメータ w の一般化線形モデル).   ▶ g は単調増加かつ g(x) + g(−x) = 1 を満たす (e.g. シグモイド関数, 標準正規分布の累積分布関 数) ▶ このとき, y =    +1 w⊤x ≥ 0 ⇔ P(y | x, w) ≥ 1 2 −1 w⊤x < 0 ⇔ P(y | x, w) < 1 2 松井 (名古屋大) 機械学習による適応的実験計画 53 / 151
  68. パラメトリックモデリング ii データ D = {(xi, yi)}n i=1 ⊂ Rd

    × {±1} を観測した下で, ▶ w の事後分布: p(w | D) ∝ p(w) n i=1 g(yiw⊤ i x) ▶ x におけるラベルの予測分布: P(y | x, D) = g(yw⊤x)p(w | D)dw 以降, f(x) に対してノンパラメトリックな事後分布の計算や予 測分布の計算を考える 松井 (名古屋大) 機械学習による適応的実験計画 54 / 151
  69. 事後分布の近似 ii ▶ x におけるラベル y の事後確率: P(y | x,

    f) = g(yf(x)) ▶ 関数値 f = (f(x1), ..., f(xn))⊤ に対する事前分布: f ∼ Nn(0, K) ▶ ラベルの事後分布: p(y | f) = n i=1 g(yif(xi)) − − − − − − − − − − → Bayes’ theorem p(f | D) ∝ p(f)p(y | f) p(f | D) をラプラス近似を用いて正規分布で近似する 松井 (名古屋大) 機械学習による適応的実験計画 56 / 151
  70. 事後分布の近似 iii ラプラス近似 密度関数を極大にする点を中心とする正規分布で近似 log p(f | D) = log

    p(f) + log p(y | f) = − 1 2 f⊤K−1f + log p(y | f) + log 1 (2π)n |Σ| −∇2 log p(f | D) = K−1 − ∇2 log p(y | f) diagonal =: A より, Taylor 展開の 2 次の項に注目すると log p(f | D) ≈ log p(f0 | D) − 1 2 (f − f0)⊤A(f − f0), f0 = arg max f log p(f | D) 松井 (名古屋大) 機械学習による適応的実験計画 57 / 151
  71. 事後分布の近似 iv Taylor 展開による 2 次近似 log p(f | D)

    ≈ log p(f0 | D) − 1 2 (f − f0)⊤A(f − f0) 以上の下で, p(f | D) ≈ N(f0, A−1) と近似する (ラプラス近似). 松井 (名古屋大) 機械学習による適応的実験計画 58 / 151
  72. 予測分布の近似 i £ x における関数値 f(x) の予測分布を近似 ▶ (f(x), f(x1),

    ..., f(xn)) の事前分布を以下のように設定: N(0, ˜ K), ˜ K = k(x, x) k(x)⊤ k(x) ¯ K ここで ¯ K は既に観測した点 x1, ..., xn から定まるカーネル 行列. ▶ f(x) の予測分布は観測値 f = (f(x1), ..., f(xn)) の条件 の下で f(x) ∼ N(µx, σ2 x ), µx = k(x)⊤ ¯ K−1 ¯ f, σ2 x = k(x, x) − k(x)⊤ ¯ K−1k(x)⊤. 松井 (名古屋大) 機械学習による適応的実験計画 59 / 151
  73. 予測分布の近似 ii ▶ データ D = {(xi, yi)}n i=1 が与えられたときの

    f の (近似) 事後分布は N(f0, A−1). ここで, f0 = arg max f − 1 2 f⊤ ¯ K−1f + log p(y | f) ▶ 結局, f(x) の予測分布は µx と σ2 x において f に関する平 均を取ったもの: µf(x) = Ef [µx] = k(x)⊤ ¯ K−1f0 σ2 f(x) = Ef [σ2 x ] = k(x, x) − k(x)⊤A−1k(x) 松井 (名古屋大) 機械学習による適応的実験計画 60 / 151
  74. 予測分布の近似 iii £ 観測値 y の予測分布を近似 リンク関数 g として標準正規分布の分布関数をとる ▶

    シグモイド関数を取った場合でも scaling によってほぼ同 様な結果が得られる このとき, y の予測分布は以下のように書ける: P(y | x, D) = Ef∼N(µf(x) ,σ2 f(x) ) [g(yf)] = g   yµf(x) 1 + σ2 f(x)   . 松井 (名古屋大) 機械学習による適応的実験計画 61 / 151
  75. ベイズ最適化 次のような最適化問題を考えたい f は未知で入出力のペア {(x, y = f(x) + ε)}

    のみが観測可能 のとき, f の最適解を求めよ → f に対して何らかの仮定 が必要 (凸性? 微分可能性?...) ベイズ最適化 f がある確率分布からのサンプルであると仮定し, ▶ f の推定 ▶ f の最適解の探索 を同時に実行する逐次最適化手法 松井 (名古屋大) 機械学習による適応的実験計画 63 / 151
  76. ベイズ最適化アルゴリズムの基本形 Algorithm : ベイズ最適化 入力: 目的関数 f の事前分布P for t

    = 1, 2, ... do Step1: 次の評価点 xn+1 を獲得関数最大化を解いて決定: xn+1 = arg max x∈X α(x; Dn, P). Step2: xn+1 における関数値 yn+1 = f(xn+1) + ε を評価 Step3: Dn+1 = Dn ∪ {(xn+1, yn+1)} とし P を更新 end for 出力 f の最適解 ˆ x. ▶ 未知関数 f の事前分布 P の設定と更新をどうするか? ▶ 獲得関数 α の設計と最適化をどうするか? 松井 (名古屋大) 機械学習による適応的実験計画 64 / 151
  77. f の事前分布 P の設定と更新 ▶ f の事前分布 P としてガウス過程を用いる 6

    f(x) ∼ GP(µ(x), k(x, x′)) ▶ データ Dn = {(xi, yi)}n i=1 を観測したという条件の下で, 以 下のように更新できる: f(x) ∼ GP(ˆ µ(x), ˆ k(x, x′)) ここで, ˆ µ(x) = µ(x) + k(x)⊤(K + σ2I)−1(y − m) ˆ k(x, x′) = k(x, x′) − k(x)⊤(K + σ2I)−1k(x′) 6ガウス過程以外の統計モデルを用いる場合もある: e.g. Optuna の Tree-structured Parzen Estimator (TPE) 松井 (名古屋大) 機械学習による適応的実験計画 65 / 151
  78. 獲得関数の α の設計, 最適化 ▶ ベイズ最適化の性能は, 獲得関数 α の設計に大きく依存 ▶

    獲得関数は, 目的関数と比べて最適化が容易であり, かつ探 索方針を反映するように設計 ▶ 獲得関数は一般に非凸関数であり, その大域的最適解を得 ることは難しい. 以下のようなアプローチが良く採用 される • 多点スタート勾配法 • 進化計算による大域最適化 詳細は次章 松井 (名古屋大) 機械学習による適応的実験計画 66 / 151
  79. ベイズ最適化の収束判定 ベイズ最適化も他の最適化手法と同様の方法で収束判定できる 残差基準に基づく判定 (最適値が既知の場合) 最適値 f∗ = minx f(x) と十分小さい

    ε > 0 に対して |µ(xt) − f∗| < ε または |µ(xt) − f∗| ∥xt∥ < ε ならば反復は収束したと “見なして” 計算を打ち切る 誤差基準に基づく判定 十分小さい ε > 0 に対して ∥xt − xt−1∥ < ε または ∥xt − xt−1∥ ∥xt−1∥ < ε ならば反復は収束したと “見なして” 計算を打ち切る 松井 (名古屋大) 機械学習による適応的実験計画 67 / 151
  80. ベイズ最適化の収束判定 Remarks ▶ 上記の収束判定基準は数値計算上の停止基準であり, 真の 最適解 x∗ = arg min

    x f(x) への収束 ∥xt − x∗∥ < ε を意味していないことに注意 ▶ ベイズ最適化の実応用では関数値 f(x) の評価回数に上限 があること (バジェット制約) も多く, 判定条件を満たすよ りも先にこの上限に達して停止する場合もある 松井 (名古屋大) 機械学習による適応的実験計画 68 / 151
  81. ベイズ最適化の性能評価 ベイズ最適化の性能はリグレットによって評価される 単純リグレット (最適解にのみ興味がある場合) 各時点 T における単純リグレット rT は以下で定まる rT

    = min t≤T yt − min x f(x) 累積リグレット (途中解にも興味がある場合) 各時点 T における累積リグレット RT は以下で定まる RT = t≤T yt − min x f(x) T → ∞ のとき rT → 0 または 1 T RT → 0 となる速さで性能 を評価 松井 (名古屋大) 機械学習による適応的実験計画 69 / 151
  82. 探索と活用のトレードオフ 探索: 事前知識のない (これまでよりも良くなるかもしれない) パラ メータに対する実験を行う 活用: 実験済みの (性能の良かった) パラメータ値に近いパラメータ

    に対して実験を行う 実験計画における探索と活用のトレードオフ 探索のみを行っていると過去の実験結果が活かせず, 活用ば かり行っているとまだ見ぬ良いパラメータを発見できない ベイズ最適化では, 両者のバランスを取りながら最適なパラメ ータを探すことが重要 松井 (名古屋大) 機械学習による適応的実験計画 70 / 151
  83. 獲得関数 アイデア : ガウス過程の事後モデルを利用し, 探索と活用のバランスを取 りながら候補点を選択する 1. 改善度に基づく方策 • probability

    of improvement • expected improvement 2. 楽観的な方策 • GP-LCB (lower confidence bound) 3. その他の方策 • トンプソン抽出 • Entropy search (情報獲得量に基づく方策) 以降では特に最小値探索を考える: min x∈X f(x) 松井 (名古屋大) 機械学習による適応的実験計画 71 / 151
  84. 改善確率 (Probability of Improvement, PI) x が現在の最良関数値 τ = min

    i=1,...,n f(xi) を改善する確率が最大 となる点を提案: xnext = arg max x∈X αPI(x; Dn) := Pr[f(x) < τ] f ∼ GP(µn(x), kn(x, x′)) のとき, Pr[f(x) < τ] = Φ τ − µn(x) σn(x) と表せる. ここで ▶ Φ : 標準正規分布の累積分布関数 ▶ σn(x) : f(x) の予測標準偏差 松井 (名古屋大) 機械学習による適応的実験計画 72 / 151
  85. 期待改善度 (Expected Improvement, EI) 現在の最良関数値 τ に対する期待値改善度を最大にする点を 提案: xnext =

    arg max x∈X αEI(x; Dn) := E[I(x, τ)] ここで, I(x, τ) = max{τ − f(x), 0} は改善度関数. f ∼ GP(µn(x), kn(x, x′)) のとき, αEI(x; Dn) = (τ − µn(x) − ξ)Φ τ − µn(x) − ξ σn(x) + σn(x)ϕ τ − µn(x) − ξ σn(x) と表せる. ここで, ▶ Φ, ϕ : 標準正規分布の累積分布関数と確率密度関数 ▶ ξ : 探索と活用のトレードオフパラメータ (ξ が大 → 探索 寄りの提案を行う) 松井 (名古屋大) 機械学習による適応的実験計画 74 / 151
  86. 参考: EI の導出 i 改善度関数は, 以下のように書き換えられる: I(x) = max{τ −

    v, 0} ここで, v = µ(x) + σ(x)ε, ε ∼ N(0, 1). このとき, αEI(x) = ∞ −∞ I(x)ϕ(ε)dε = (τ−µ(x))/σ(x) −∞ (τ − µ(x) − σ(x)ε)ϕ(ε)dε = (τ − µ(x)) (τ−µ(x))/σ(x) −∞ ϕ(ε)dε − σ(x) (τ−µ(x))/σ(x) −∞ εϕ(ε)dε 松井 (名古屋大) 機械学習による適応的実験計画 76 / 151
  87. 参考: EI の導出 ii = (τ − µ(x))Φ τ −

    µn(x) σn(x) + σ(x) √ 2π (τ−µ(x))/σ(x) −∞ −εe−ε2/2dε = (τ − µ(x))Φ τ − µn(x) σn(x) + σ(x) √ 2π e−ε2/2 (τ−µ(x))σ(x) −∞ = (τ − µ(x))Φ τ − µn(x) σn(x) + σ(x) ϕ τ − µn(x) σn(x) − 0 = (τ − µ(x))Φ τ − µn(x) σn(x) + σ(x)ϕ τ − µn(x) σn(x) 松井 (名古屋大) 機械学習による適応的実験計画 77 / 151
  88. Remarks ▶ 実応用では, n 時点での最良点を τ = mini=1,...,n yi とする

    が, PI を用いる場合には, これは過度に貪欲的に最適化を実 行してしまう可能性がある. ▶ 一方で, EI を用いる場合には上記の設定でもリーズナブル に挙動する. 松井 (名古屋大) 機械学習による適応的実験計画 78 / 151
  89. 下側信頼限界 (Lower Confidence Bound, GP-LCB) ガウス過程の予測平均 µn(x) (現在のブラックボックス関数の 推定) と予測標準偏差

    σn(x) (その推定の不確実性) の重み付 き和: arg max x∈X αLCB(x; Dn) := −µn(x) + βnσn(x) ▶ 探索と活用のトレードオフを βn でコントロールする • βn のスケジューリングにかなり敏感 (調整が難しい) • リグレット解析の結果から理論的に良いとされるパラメー タ値の設定はあるが, 実用上うまくいかないことも多い ▶ リグレットの理論上界が示されている 松井 (名古屋大) 機械学習による適応的実験計画 79 / 151
  90. トンプソン抽出 (Thompson Sampling, TS) αTS(x; D) = E[y | x,

    θ], θ ∼ P(θ | D) ▶ 本当は観測系の事後分布 p(y | x, D) に関する期待値 Ep(y|x,D) [y] を計算したいが, この事後分布 p(y | x, D) = p(y | x, θ)p(θ | D)dθ の積分計算が難しい場合がある ▶ αTS はパラメータの事後分布 p(θ | D) からサンプリングし たモデルパラメータ θ によって上の積分を 1 点モンテカル ロ近似したもの 松井 (名古屋大) 機械学習による適応的実験計画 81 / 151
  91. 情報獲得量に基づく方策:基本的なアイデア ▶ 未知の最適解 x∗ に関する事後分布 p∗(x | Dn) を考える ▶

    評価候補点 x が, x∗ に関してどの程度情報を持っているか を評価する 松井 (名古屋大) 機械学習による適応的実験計画 83 / 151
  92. (Predictive) Entropy Search [Hernández-Lobato+ (NIPS’14)] アイデア Black box 関数 f

    の大域最大値を達成するパラメータ x∗ = arg min x∈X f(x) に関する情報が最大となるような点を次の 探索点とする Acquisition function in ES, PES これまで評価したデータ Dn の下で候補点 {x, y} と最適解 x∗ との相互情報量 (MI) を評価する: αn(x) = I({x, y}; x∗ | Dn) = H(p(x∗ | Dn)) − Ep(y|Dn,x) [H(p(x∗ | Dn ∪ {x, y}))] (ES) = H(p(y | Dn, x)) − Ep(x∗|Dn) [H(p(y | Dn, x, x∗))] (PES) ▶ PES はオリジナルの ES に対して MI の対称性を使って等価 な変換をしたもの 松井 (名古屋大) 機械学習による適応的実験計画 84 / 151
  93. Predictive Entropy Search i 次の評価点の決定 xn+1 = arg max x∈X

    αn(x) = H[p(y | Dn, x)] − Ep(x∗|Dn) [H[p(y | Dn, x, x∗)]] 第 1 項について ▶ 予測分布 p(y | Dn, x) が正規分布のとき, 第 1 項は解析的に 書ける: H[p(y | Dn, x)] = 1 2 log(2πe(σn(x) + σ2)) 松井 (名古屋大) 機械学習による適応的実験計画 85 / 151
  94. Predictive Entropy Search ii 第 2 項の予測分布は以下のように近似 ▶ f ∼

    Posterior をベイズ線形回帰 fi(x) = ϕi(x)⊤θi で解析 的に近似し最適解の推定量 ˆ x∗ を大量にサンプリング → 期待値の計算を ˆ x∗ に関する標本平均で実現 ▶ “最適解で条件付け” を次の 3 制約で表現 1. x∗ は局所解 i.e. ∇f(x∗ ) = 0 & ∇2f(x∗ ) が負定値 2. f(x∗ ) は現在までの観測データより大きい i.e. f(x∗ ) ≥ f(xi ), i = 1, ..., n 3. 候補点 x で, f(x) < f(x∗ ) ▶ p(f(x) | Dn, 1, 2, 3) を expectation propagation (EP) で正 規近似 第 2 項の予測分布: p(f(x) | Dn, x∗) ∝ 1f1<f2 N(f | mf , Vf )df2 松井 (名古屋大) 機械学習による適応的実験計画 86 / 151
  95. Predictive Entropy Search iii Acquisition Function (Empirical Version) αn(x) =

    1 M M i=1 [0.5 log(v(i) n (x) + σ2) − 0.5 log(v(i) n (x | x(i) ∗ ) + σ2)] ▶ v(i) n (x), v(i) n (x | x(i) ∗ ) はそれぞれデータ Dn (と最適解 x∗ ) で の条件付きの f の予測分散, σ2 は誤差分散 ▶ それぞれ先に導出した予測分布から計算する (正規分布の ときエントロピー ≈ 予測分散) Figure 1: [Hernández-Lobato+ NIPS’14] Figure 1 より抜粋 松井 (名古屋大) 機械学習による適応的実験計画 87 / 151
  96. Max-Value Entropy Search (MES) [Wang+ ICML’17] i ▶ ES, PES

    : 最適解 x∗ に関する情報量を測る ▶ MES : 最適値 y∗ = f(x∗) に関する情報量を測る Acquisition function in MES これまで評価したデータ Dn の下で候補点 {x, y} と最適値 y∗ との相互情報量 (MI) を評価する: αt(x) = I({x, y}; y∗ | Dt) = H(p(y | Dt, x)) − Ep(y∗|Dn) [H(p(y | Dn, x, y∗))] ≈ 1 K y∗∈Y∗ γy∗ (x)ψ(γy∗ (x)) 2Ψ(γy∗ (x)) − log(Ψ(γy∗ (x))) ▶ ψ, Ψ : 正規分布の密度関数 & 分布関数 ▶ γy∗ (x) = (y∗ − µt(x))/σt(x) 松井 (名古屋大) 機械学習による適応的実験計画 88 / 151
  97. Max-Value Entropy Search (MES) [Wang+ (ICML’17)] ii H(p(y | Dt,

    x)) − Ep(y∗|Dn) [H(p(y | Dn, x, y∗))] ▶ 期待値は K 回 f の最大値をサンプリングすることで MC 推定 ▶ p(y | Dt, x) = N(µt(x), σt(x)) ▶ p(y | Dt, x, y∗) = T N(µt(x), σt(x); y∗) • y < y∗ を満たすような切断正規分布 Remark : avoiding the curse of dimensionality ▶ ES, PES : d 次元の分布に依っている ▶ MES : 1-次元の分布に依っている → MES の方がサンプリング効率が高く計算コストが 小さい 松井 (名古屋大) 機械学習による適応的実験計画 89 / 151
  98. レベル集合推定 i レベル集合推定 (level set estimation, LSE) [Gotovos+ (2013)] ブラックボックス関数

    f と入力候補点 {xi}N i=1 が与えられた とき, 関数値 f(xi) が所望のしきい値 h ∈ R よりも大きい xi ∈ Xup = {x | f(x) > h} か, 小さい xi ∈ Xlow = {x | f(x) ≤ h} かを判定する問題 松井 (名古屋大) 機械学習による適応的実験計画 91 / 151
  99. レベル集合推定 ii  Xup  Xlow f(x) x 松井 (名古屋大)

    機械学習による適応的実験計画 92 / 151
  100. レベル集合の判定方法 ガウス過程回帰による予測分布 N(µn(x), σ2 n (x)) を用いて f(x) の信頼区間を考える ▶

    µn(x) − βσn(x) > h ⇒ xi ∈ Xup (左) ▶ µn(x) + βσn(x) < h ⇒ xi ∈ Xlow (右) ▶ µn(x) − βσn(x) ≤ h ≤ µn(x) + βσn(x) ⇒ 保留 (中央) 松井 (名古屋大) 機械学習による適応的実験計画 93 / 151
  101. レベル集合推定のための獲得関数 Straddle 関数 αStraddle (x) = min{µn(x) + βσn(x) −

    h, A h − (µn(x) − βσn(x)) B } µn (x) x h   = µn (x) + 1.96σn (x) − h = h − (µn (x) − 1.96σn (x)) ▶ 予測分散が大きく, かつしきい値付近の点が選ばれやすい 獲得関数 松井 (名古屋大) 機械学習による適応的実験計画 94 / 151
  102. 未分類点の扱い ▶ レベル集合推定が停止した時点で未分類のままの点はあり 得る ▶ 実践的には停止した時点で得られている GP の予測平均 µn(x) を用いて

    µn(x) > h or µn(x) ≤ h で全ての未分類点を上位か下位かに分類する 松井 (名古屋大) 機械学習による適応的実験計画 95 / 151
  103. レベル集合推定の評価指標 LSE による分類 LSE(xi) > h 未分類 LSE(xi) < h

    正解ラベル f(xi) > h TP UP FN f(xi) < h FP UN TN ▶ 分類済みの点は通常の分類問題と同様にラベルの一致で評 価する ▶ 未分類点の扱いをどうするか? • 誤分類の仕方によって重大性が違う場合を考慮したい • 例:材料開発において 低品質な箇所を高品質と分類する重大性 (false positive) >> 高品質な箇所を低品質と分類する重大性 (false negative) 松井 (名古屋大) 機械学習による適応的実験計画 96 / 151
  104. レベル集合推定の評価指標 [Hozumi+ 2023] LSE による分類 LSE(xi) > h 未分類 LSE(xi)

    < h 正解ラベル f(xi) > h TP UP FN f(xi) < h FP UN TN ▶ 未分類点を全て下位集合として評価する sensitivity risk-sensitive = TP TP + UP + FN , specificity risk-sensitive = TN + UN TN + FP + UN ▶ 未分類点を全て上位集合として評価する sensitivity cost-sensitive = TP + UP TP + UP + FN , specificity cost-sensitive = TN TN + FP + UN 松井 (名古屋大) 機械学習による適応的実験計画 97 / 151
  105. 制約付き最適化 i ブラックボックス関数 f の最適化問題 min x∈X f(x) で探索空間 X

    に制約がある場合 ▶ 制約条件が事前に判明しているケース → 獲得関数の最適化の際に制約条件を加えれば OK ▶ どのような制約条件があるか不明なケース → 獲得関数に改良を加えて対処  (以下で紹介) 松井 (名古屋大) 機械学習による適応的実験計画 99 / 151
  106. 制約付き最適化 ii [Gramacy&Lee (2011)] integrated expected conditional improvement αIECI(x) :=

    x′ αEI(x′, Dn) − αEI(x′, Dn ∪ x | x) h(x′)dx ▶ 密度関数 h の下で x を観測することによる EI の変化をモ デル化 (h はユーザーが指定) ▶ 制約条件を満たす確率を表現するような h を選択すると, IECI は制約が有効である確率が高い領域を優先的に探 索する 松井 (名古屋大) 機械学習による適応的実験計画 100 / 151
  107. 制約付き最適化 iii [Snoek, PhD thesis; Gardner+ (2014)] weighted expected improvement

    EI に制約条件を満たす確率をかける αwEI(x) := αEI(x, Dn)h(x, Dn) ▶ h(x, Dn) の例 (ガウス過程でモデリング) h(x, Dn) =    1 x が制約を満たす 0 x が制約を満たさない h(x, Dn) = Pr(f(x) < λ | Dn) ▶ 制約が満たされなさそうな領域では wEI は (h の影響で)   ほとんど 0 になる 松井 (名古屋大) 機械学習による適応的実験計画 101 / 151
  108. 制約付き最適化 iv その他の制約付きベイズ最適化 ▶ [Hernández-Lobato+ (2015)] • predictive entropy search

    (PES) のバリアント • 目的関数と制約条件を独立に評価する ▶ [Gramacy+ (2016)] • 拡張ラグランジュ法 + BO min x,y f(x) + y⊤g(x) Lagrangian + λ 2 ∥g(x)∥2 penalty • 通常のラグランジュ関数 + 制約を破ることに対する罰則  • λ をスケジューリングしながら制約なし最適化 (BO) を繰り 返し解く 松井 (名古屋大) 機械学習による適応的実験計画 102 / 151
  109. コスト考慮型最適化 ▶ 探索空間のある領域は他の領域に比べて目的関数の評価に よりコストがかかる ▶ 探索回数に上限がある場合, 探索リソースは低コストな領 域に重点的に割くべき (biased search)

    ▶ EI per second [Snoek+ (2012)] : αEI(x, Dn) c(x) → “良いパラメータ” の周辺を重点的に探索 • c(x) は x で目的関数を評価するコストを表す 松井 (名古屋大) 機械学習による適応的実験計画 103 / 151
  110. 多目的最適化 i ▶ M 個の目的関数 F (x) = (f1(x), ...,

    fM (x))⊤ の同時最適化を考える問題 ▶ パレート解の探索が目的 パレート解 ▶ fx = (f1(x), ..., fM (x)) と書き, x, x′ に対して fx ≻ fx′ :⇔ fi(x) ≥ fi(x′), i = 1, ..., M が成り立つとき, fx は fx′ を優越するという ▶ fx が任意の x′ に対して fx′ に優越されないとき, fx をパ レート解と呼ぶ 松井 (名古屋大) 機械学習による適応的実験計画 104 / 151
  111. 多目的最適化 ii Pareto frontier f(P) V (P)   $)+2

    *% $  (!    # (&   $)+-   '  ) " .70%1!6,8         5*70 *'4: %1 /70      9"   3 (#& %1  .70 %1    松井 (名古屋大) 機械学習による適応的実験計画 105 / 151
  112. ベイズ最適化によるパレートフロントの推定 i [Zuluaga+ (2013)] ⼊⼒ の不確実性領域 ⼊⼒ の不確実性 with the

    largest wt (x) is chosen as the next sample xt to be evaluated. We refer to wt (xt ) as wt . Intuitively, this rule biases the sampling towards ex- ploring, and thus improving the model for, the points most likely to be Pareto-optimal. f1(x) f2(x) d (max(Rt(x)) + d (min(Rt(x)) + d wT + 2 2 d d Rt(x) of a point classified as Pareto-optimal Rt(x) of a point classified as not-Pareto optimal Rt(x) of an unclassified point Sampled points classified as not-Pareto optimal Next sample Figure 2. Classification and sampling example for n = 2 and ‘ = 0. Stopping criteria. The training process stops after, say, T iterations when all points in E are classified, i.e., when UT = ÿ. The prediction returned is ˆ P = PT . The selection of the parameter ‘ used in the classifica- tion rule impacts both the accuracy and the sampling cost T of the algorithm. Theorem 1. Let ” œ (0, 1 —t = 2 log(n|E|fi2 t2 /(6”)), t probability 1 ≠ ”. To achieve a maximum hyper su cient to choose ‘ = ÷(n ≠ 2nan where a = maxxœE,1ÆiÆn {  — In this case, the algorithm ter iterations, where T is the sma Û T C1—T “T Ø ÷ Here, C1 = 8/ log(1 ≠ ‡≠2 ), type of kernel used. This means that by specifying ume error ÷, PAL can be con rameter ‘ to stop when the tar confidence 1≠”. Additionally, number of iterations T requir Later, in Corollary 2, we will 判別ルール: となる が存在しない となる が存在する → はパレート解(⻘領域) → はパレート解でない(灰領域) M個の⽬的関数をM個の独⽴な GPでモデル化して計算する 獲得関数 松井 (名古屋大) 機械学習による適応的実験計画 106 / 151
  113. ベイズ最適化によるパレートフロントの推定 ii [Suzuki+ (2020)]      

         %0.1   #/- '* ("%01 ) . '   ,  !$ %0.1 &+1 松井 (名古屋大) 機械学習による適応的実験計画 107 / 151
  114. バッチベイズ最適化 ▶ 複数の候補点で同時に目的関数を評価できる状況 (並列計 算システムなど) もある ▶ 一度に複数の学習データ点を選択するタイプのベイズ最適 化をバッチベイズ最適化と呼ぶ ▶

    問題設定としては並列分散ベイズ最適化 (parallel distributed Bayesian optimization)の特別なケースとみな すことができる (用いる手法もこの設定に準じる) 松井 (名古屋大) 機械学習による適応的実験計画 108 / 151
  115. バッチベイズ最適化の方法 i 並列 EI [Snoek+ (2012), Hernández-Lobato+ (2017)]  

           獲得関数: αPEI(x | D, C) = Ep({yc}c∈C|{xc}c∈C,D) [αEI(x | D ∪ {(xc, yc)}c∈C)] → ある点の評価中に別の点を選ぶため, EI の候補点に関する期 待値を新たな獲得関数とする 松井 (名古屋大) 機械学習による適応的実験計画 109 / 151
  116. バッチベイズ最適化の方法 ii 並列分散トンプソン抽出 [Hernández-Lobato+ (2017)]     #

     " $ !% 松井 (名古屋大) 機械学習による適応的実験計画 110 / 151
  117. 高次元のベイズ最適化         

       目的関数が高次元 (多数のパラメータを含んでいる) 場合 ▶ 目的関数の推定に必要な関数値の観測回数 (実験回数) が 膨大になる ▶ 獲得関数がほとんどの領域で平坦になり, 探索が困難にな る場合がある (上図) 松井 (名古屋大) 機械学習による適応的実験計画 111 / 151
  118. 高次元のベイズ最適化の方法 大きく分けて 3 つのアプローチがある 1. 目的関数の事前分布モデルを工夫する • 加法的ガウス過程に基づく BO [Kandasamy+

    (2015)] 2. 次元削減を行い低次元空間で BO を行う • REMBO [Wang+ (2013)], LineBO [Kirschner+ (2019)]... 3. 局所的なモデリングで精度を担保する • TuRBO [Eriksson+ (2019)] 松井 (名古屋大) 機械学習による適応的実験計画 112 / 151
  119. 加法的ガウス過程 (additive Gaussian processes) モデル ▶ 目的関数 f(x) がより低次元な関数の和で書けるとする: f(x)

    = f(1)(x(1)) + f(2)(x(2)) + · · · + f(M)(x(M)) ここで, 各 x(j) の次元 dj は元の x の次元 d よりも小さい ▶ 各 f(j) に独立なガウス過程モデルを仮定 f(j)(x) ∼ GP(µ(j)(x(j)), k(j)(x(j), x(j)′ )) ▶ このとき, f は平均関数 µ, カーネル関数 k がそれぞれ µ(x) = µ(1)(x(1)) + · · · + µ(M)(x(M)), k(x, x′) = k(1)(x(1), x(1)′ ) + · · · + k(M)(x(M), x(M)′ ) であるようなガウス過程 GP(µ(x), k(x, x′)) に従う 松井 (名古屋大) 機械学習による適応的実験計画 113 / 151
  120. 加法的ガウス過程モデルの推論 X = {x1, ..., xn}, Y = {y1, ...,

    yn} : 観測済みの点 ▶ 独立性から, 各 f(j) の予測分布を個別に計算すれば良い ▶ 候補点 x(j) ∗ における観測値 y(j) ∗ = f(j)(x(j) ∗ ) + ε の予測分 布 p(y(j) ∗ | x∗, X, Y ) は予測平均と予測分散がそれぞれ µ(j)(x(j) ∗ ) = k(j)(x(j) ∗ )∆−1Y (j), σ(j)(x(j) ∗ ) = k(j)(x(j) ∗ , x(j) ∗ ) − k(j)(x(j) ∗ )∆−1k(j)(x(j) ∗ ) の正規分布 N(µ(x(j) ∗ ), σ(x(j) ∗ )) となる. ここで, • k(j)(x(j) ∗ ) = (k(j)(x(j) ∗ , x(j) 1 ), ..., k(j)(x(j) ∗ , x(j) n )) ∈ Rn • ∆ = k(X, X) + σ2I ∈ Rn×n 松井 (名古屋大) 機械学習による適応的実験計画 114 / 151
  121. 加法的ガウス過程に基づくベイズ最適化 Additive GP-UCB [Kandasamy+ (2015)]: α(x) = µt−1(x) + βt

    M j=1 σ(j) t−1 (x(j)) ▶ α は各 j に対する GP-UCB α(j)(x(j)) = µ(j) t−1 (x(j)) + βtσ(j) t−1 (x(j)) の和になっている ▶ 各 α(j) を独立に最大化して得られた解を concat すれば α の最適解が得られる 松井 (名古屋大) 機械学習による適応的実験計画 115 / 151
  122. 次元削減に基づくベイズ最適化 i Definition 3 (有効次元 (effective dimensionality)) 関数 f :

    Rd → R が有効次元 de(< d) を持つ :⇔ de 次元の線型部分空間 T が存在して, 任意の x⊤ ∈ T と任 意の直交補空間の元 x⊥ ∈ T ⊥ に対して f(x) = f(x⊤ + x⊥) = f(x⊤) が成り立つ Theorem 4 (Wang+ (2013) Theorem 2) ▶ f : Rd → R : 有効次元が de の関数 ▶ A ∈ Rd×d′ : 各要素が独立に N(0, 1) に従うランダム行列 このとき, 任意の x ∈ Rd に対して f(x) = f(Az) を満たすよ うな z ∈ Rd′ が確率 1 で存在する (ここで, d′ ≥ de ) 松井 (名古屋大) 機械学習による適応的実験計画 116 / 151
  123. 次元削減に基づくベイズ最適化 ii A A A x=Ay Convex projection of Ay

    to x y Embedding D=2 d=1 y x      ▶ 目的関数 f には関数値の挙動を支配する方向と関数値に影 響を与えない方向がある ▶ 低次元空間で獲得関数の最適化を行い, ランダム行列 A で 元の次元に埋め込む (ランダム埋め込み) ことで探索のコ ストを削減する 松井 (名古屋大) 機械学習による適応的実験計画 117 / 151
  124. 次元削減に基づくベイズ最適化 iii ランダム埋め込みによるベイズ最適化 (REMBO) [Wang+ (2013)] Theorem 5 (Wang+ (2013)

    Theorem 3) 関数 f の, 中心 0 の box constraint 上の最適解を x∗ とし, x∗ ⊤ をその部分空間 T への射影とする. このとき, f(Az∗) = f(x∗ ⊤ ) を満たすような z∗ ∈ Rd′ が存在する. 松井 (名古屋大) 機械学習による適応的実験計画 118 / 151
  125. 信頼領域法: 目的関数の局所モデルの利用 信頼領域法 (trust region method) の手順 1. 各反復において, 現在の解

    xt の近傍で目的関数 f(x) を最 適化しやすい関数 m(z) で近似 • よく用いられるのは二次近似モデル mt (z) = f(xt ) + ∇f(xt )⊤z + 1 2 z⊤∇2f(xt )z 2. m(z) による近似が良く成り立つ信頼領域 (trust region) ∥z∥ ≤ ∆t を設定 • ∆t を信頼領域半径とよぶ 3. 信頼領域上で m(z) を最小化 min z mt(z) s.t. ∥z∥ ≤ ∆t 松井 (名古屋大) 機械学習による適応的実験計画 119 / 151
  126. 信頼領域法によるベイズ最適化 i 決定論的な信頼領域法を使うのが難しい点 ▶ 観測ノイズの影響を考慮できない → 不確実性のモデリングが必要 ▶ 二次モデルなどのよく使われる近似モデルでは, 信頼領域

    半径が極めて小さくなってしまう → より柔軟なモデルが必要 TuRBO (Trust Region Bayesian Optimization) [Eriksson+ (2019)]: ▶ 信頼領域上の近似モデルとしてガウス過程を採用 ▶ サイズの異なる複数の信頼領域上で並列に BO を実行する ことで, 全体としてはバッチベイズ最適化としてアルゴリ ズムを構築 松井 (名古屋大) 機械学習による適応的実験計画 120 / 151
  127. 信頼領域法によるベイズ最適化 ii TuRBO のアルゴリズム %   .9:- 3* 8;

    +( .9: '1 5,  "2  !0  $6!0- "2  .9: &/ #04 7   ) 松井 (名古屋大) 機械学習による適応的実験計画 121 / 151
  128. ガウス過程に基づく転移学習の方法 「実験」の大きな特徴 ▶ 設定の異なる実験群を通じて対象に関する知識が時間の経 過と共に蓄積される → よく似た実験のデータが利用できる可能性がある ▶ 過去の実験データ (source

    data) を用いて現在取り組んで いる実験 (target task) のパフォーマンスを向上させたい → 転移学習 target task のデータ {(xi, yi)}n i=1 , yi = f(xi) + ε に加えて source task のデータ {(x′ j , y′ j )}m j=1 , y′ j = f′(x′ j ) + ε′ が利用できる状況を想定 松井 (名古屋大) 機械学習による適応的実験計画 122 / 151
  129. ガウス過程に基づく転移学習の方法: Diff-GP モデル ▶ source 関数 f′ と target 関数

    f の差を GP でモデル 化 [Shilton+, AISTATS2017] ∆f = f − f′ ∼ GP(µ(x), k(x, x′)) ▶ source task の出力を GP モデルを使って変換 ˆ yj = y′ j + µ(x′ j ), 1 ≤ j ≤ m ▶ 変換した source task のデータを target task のデータにマ ージして f を GP モデリング DT = {(xi, yi)}n i=1 ∪ {(xj, ˆ yj)}m j=1 ▶ ガウス過程に用いるデータの変換なので,ベイズ最適化に 限らずレベル集合推定など他の実験計画の方法とも組み合 わせられる 松井 (名古屋大) 機械学習による適応的実験計画 123 / 151
  130. ガウス過程に基づく転移学習の方法: Diff-GP モデル f(x) − f (x) predict mean credible

    interval f(x) predict mean credible interval f(x) and f (x) f(x) f (x) x(s) 2 x(s) 1 x(s) 3 x(s) 4 x(t) 1 x(t) 2 f(x) predict mean credible interval f(x) and f (x) f(x) f (x) f(x) − f (x) predict mean credible interval x(s) 2 x(s) 1 x(s) 3 x(s) 4 x(t) 1 x(t) 2 f(x) and f (x) f(x) f (x) f(x) − f (x) predict mean credible interval f(x) predict mean credible interval x(s) 2 x(s) 1 x(s) 3 x(s) 4 x(t) 1 x(t) 2            松井 (名古屋大) 機械学習による適応的実験計画 124 / 151
  131. 事例 i : 機械学習における超パラメータ調整 ▶ 機械学習モデルには多数の超パラメータが含まれておりそ の設定は汎化性能に直結 Ex (深層学習の超パラメータ) •

    層数, チャンネル数, 学習アルゴリズム, ... ▶ 従来は検証誤差を監視しながら人力で調整 (深層学習が職 人芸と言われる所以) ▶ 最近は超パラメータ自動最適化用のフレームワークが充実 しつつある 超パラメータ調整のための方法 : £ グリッドサーチ, ランダムサーチ (クロスバリデーション) £ 進化計算 (遺伝アルゴリズムなど) £ ベイズ最適化 松井 (名古屋大) 機械学習による適応的実験計画 125 / 151
  132. 事例 i : 深層学習における超パラメータ調整 例: Optuna ▶ Preferred Networks 社が開発した超パラメータ最適化フレ

    ームワーク ▶ 過去の超パラメータによる学習の履歴に基づいて次に試行 するべき超パラメータを適応的に指定 ▶ Tree-structured Parzen Estimator (TPE) [Bergstra+ (2011)] と呼ばれる GP とは別の統計モデルを利用 ▶ TPE の他の手法との性能比 較 (畳み込みニューラルネ ットの超パラメータ調整タ スク) ▶ 同じ探索回数では TPE が 最も誤差を小さくしている 松井 (名古屋大) 機械学習による適応的実験計画 126 / 151
  133. 事例 ii : イオン電動性物質の伝導度推定 [Kanamori+ (2018)] £ 電池材料などのイオン電動性物質の伝導度を知りたい ▶ ポテンシャルエネルギー

    (PE) 曲面内のイオン伝導経路を 同定できれば,その経路内の最安定点(エネルギー最小の 点)とボトルネック点(エネルギー最大の点)を知ること ができ,イオン伝導度を求めることができる ▶ 第一原理計算などの物理シミュレーションを用いれば各点 における PE を高精度に求められる → PE 関数全体を網羅的な第一原理計算で求めようとすると膨 大な計算コスト 提案法 ガウス過程モデルとベイズ最適化の考え方を拡張し,イオン 伝導経路を特徴づける部分に対して選択的に第一原理計算を 行うアプローチ 松井 (名古屋大) 機械学習による適応的実験計画 127 / 151
  134. 事例 ii : イオン電動性物質の伝導度推定 [Kanamori+ (2018)] 以下の 3 ステップの繰り返しアルゴリズムとして実現 Step

    1 ガウス過程モデルから PE 関数のランダムサンプ ルを多数生成 Step 2 Step 1 の各 PE 関数に対して動的計画法で最適な イオン伝導路を同定 → 最安定点とボトルネック点のランダムサンプル を得る Step 3 Step 2 で得た最安定点とボトルネック点に基づい た獲得関数を設計し, 次に第一原理計算を適用す るべきコンフィギュレーション点を選択 松井 (名古屋大) 機械学習による適応的実験計画 128 / 151
  135. 事例 ii : イオン電動性物質の伝導度推定 [Kanamori+ (2018)] ▶ 左図: 2 次元空間のポテンシャルエネルギー

    (PE) 曲面をガ ウス過程でモデル化して得られた予測平均と予測分散 ▶ 右図: ガウス過程モデルからランダムサンプリングで PE 曲面の候補を多数作成. 各候補に動的計画法を適用してイ オン伝導経路を求めることで,イオン伝導経路の予測分布 を推定し, ベイズ最適化で第一原理計算すべき点を決定 松井 (名古屋大) 機械学習による適応的実験計画 129 / 151
  136. 事例 iii : レベル集合推定による適応的マッピング  角  角 NV>R9=@Y,0&IKAO S10"$(/"C3

     &+ 0"$ (/" &           -#)         0"$IKEO ;Q7:X?WT  NV>RD9  0"$GB+'!*4U ;QH+'!*ML ."% 0 ;Q 28:D9 J<5PF6        ▶ 製造業では, 材料の物性が所望の品質を満たしていない低 品質領域の特定が重要 ▶ 従来は等間隔マッピングで網羅的に物性値を測定して判断 → 無駄な測定が多く, 効率が悪い 松井 (名古屋大) 機械学習による適応的実験計画 130 / 151
  137. 事例 iii : レベル集合推定による適応的マッピング レベル集合推定としての定式化 物性値にしきい値を設定し, ▶ 測定点の物性値がしきい値以上 → 低品質領域ではない

    ▶ 測定点の物性値がしきい値以下 → 低品質領域である と定義して 2 つの領域を分離する レベル集合推定のための能動学習により効率的な適応的マッピ ングを実現する 松井 (名古屋大) 機械学習による適応的実験計画 131 / 151
  138. 事例 iii : レベル集合推定による適応的マッピング [穂積 + JSAI2019, Hozumi+ 2023] 

                   ▶ 2 次元入力 (測定点の座標), 1 次元出力 (物性値) 関数を GP でモデリングし LSE を適用 ▶ 従来法 (6586 点測定) よりも少ない測定点数で低品質領域 を同定 松井 (名古屋大) 機械学習による適応的実験計画 132 / 151
  139. 事例 iii : レベル集合推定による適応的マッピング [Hozumi+ 2023] risk-sensitive AUC cost-sensitive AUC

    risk-sensitive F-value cost-sensitive F-value 通常のLSE 転移LSE ▶ 通常の LSE, 転移学習 +LSE, ランダム探索を比較 ▶ うまく転移が成功すれば通常の LSE をさらに上回る効率化 が実現可能 松井 (名古屋大) 機械学習による適応的実験計画 133 / 151
  140. 事例 iv : Si エピタキシャル成長プロセス最適化 [Osada+ (2020)] 4 , 

    ,*   $0 .#/+)"' 2) 1&(  % !3  %    '%  /      -.      '!  '$ % -!3 !3  " %   +& )#,  (+    *% 目的 成長速度を最大にしつつ, その他の 5 つの評価項目を基準値 以下にするプロセス条件の組合せを見つける 松井 (名古屋大) 機械学習による適応的実験計画 134 / 151
  141. 事例 iv : Si エピタキシャル成長プロセス最適化 [Osada+ (2020)] Thickness uniformity Less

    than a threshold Low Available High Uniformity of resistivity High Low Large LPD (> 0.30 μm) Low Low Small LPD (> 0.136 μm) Low Low Accumulation of slip length High High Error A No error Zero Unavailable High Error B *No error Zero High meter is less than a threshold. t of BO process in this study. SQCBO: single quality constraint Bayesian optimization; MQCBO: multiple quality constraint Bayesian optimization. 制約付きベイズ最適化 + バッチベイズ最適化 成⻑速度以外の5つの項⽬が 基準値以下であることを要請 異なる条件での複数の実験を 連続して⾏い, 複数の試料を ⼀度に評価 Procedure 1: 単⼀のパラメータのみを更新するBO (短時間で実⾏可能) ⽤いたベイズ最適化のフレームワーク Procedure 2: 全パラメータを更新するBO (実⾏に時間を要する) Procedure 3 : プロセスエンジニアによる条件の 絞り込み → BOによって挙げられた候補条件を 基にPEの知識を⽣かして特定のパラ メータに対して条件探索を⾏う 提案法のフローチャート 松井 (名古屋大) 機械学習による適応的実験計画 135 / 151
  142. 事例 iv : Si エピタキシャル成長プロセス最適化 [Osada+ (2020)]   #!

    & ',& '. $ 5=9<=4 3=681-/0" :27" 3;> +.#! ? ( - *0. - *0#! . .  )%( IEP[V^HjY 852  YWd  0Ee?:/O7J 852  Y-1 iR  '"C\2NAcF=;3 ]BL._d 9_  &+#!, %M<XD ae?:/O@L M< `  TZ)bQ M<gU  K4 ($*6G TZ) bQ  `F=;3 Sf>kh  松井 (名古屋大) 機械学習による適応的実験計画 136 / 151
  143. 事例 v: 抗がん剤第 1 相試験における MTD の同定 抗がん剤第 1 相試験

    ▶ 新規抗がん剤を初めて人体(がん患者)に投与する試験 ▶ 安全性と薬物動態を確認することで後続の薬効評価試験 (第2相試験)の実施 · 計画の検討に資する ▶ 安全性評価では許容される最大用量である最大耐用量 (maximum tolerated dose; MTD) の同定が試みられる              松井 (名古屋大) 機械学習による適応的実験計画 137 / 151
  144. 事例 v: 抗がん剤第 1 相試験における MTD の同定 代表的な用量探索デザイン:3+3デザイン ▶ 最低用量から開始

    ▶ 3例に対して同一用量を投与 ▶ 重篤な有害事象(DLT)の発現数に応じて増量または減量 短所 : ▶ 増量・減量の判定は直近 3 例または 6 例のデータしか 用いない(試験内の全患者 のデータを用いてない) ▶ 結果として MTD の推定精 度が低い                 松井 (名古屋大) 機械学習による適応的実験計画 138 / 151
  145. 事例 v: 抗がん剤第 1 相試験における MTD の同定 Continual Reassessment Method

    (CRM) [O’Quigley+ 1990] ▶ 用量反応関係のモデルを仮定し全患者データを用いたモデ ル推定 · 更新により用量の増減を行う ▶ 特定の用量反応曲線モデル(e.g.: ロジスティックモデル) を仮定 ▶ モデルパラメータをベイズ推定 CRM の手順: 1. 用量反応モデル · 事前分布の設定 2. N 例目に用量割付 3. DLT の有無を観測 4. 事後分布の推定 5. 次症例の用量決定 (N ← N + 1) 松井 (名古屋大) 機械学習による適応的実験計画 139 / 151
  146. 事例 v: 抗がん剤第 1 相試験における MTD の同定 ベイズ最適化デザイン [Takahashi&Suzuki 2021]

    ⽤量反応モデル ガウス過程事前分布 • 平均関数は各反応の想定初期確率 から設定 • ⼆乗指数カーネルを使⽤ 観測値の分布 ある⽤量 における反応の発現例数の分布 ⽬的⽤量の探索 ① MTDの探索 と⽬標値との絶対誤差を最⼩化 ② オーバードーズ (OD) の最⼩化 ⽤量選択時に制約条件を課す • 推定確率に対する条件 • ⽤量レベルの漸増に制限 • DLT発⽣時に探索範囲を狭める条件 ⽤量選択(EI獲得関数) 反応の発現確率のベイズ推定 次の⽤量の決定 松井 (名古屋大) 機械学習による適応的実験計画 140 / 151
  147. 事例 v: 抗がん剤第 1 相試験における MTD の同定 ベイズ最適化デザイン [Takahashi&Suzuki 2021]

    様々な反応確率のシナリオで安定した性能 Contemporary Clinical Trials Communications 21 (2021) 100753 A. Takahashi and T. Suzuki Table 2 Operating characteristics under a typical target toxicity rate (✓ = 0.3) by each method and scenario (Selection probabilities of MTD determination (correct and overdose selections), average percentages of dose allocations at the MTD and overdoses, and average percentages of observed patients with DLT). Method Scenario MTD determination Dose allocation (%) Toxicity Scenario MTD determination Dose allocation (%) Toxicity Correct Overdose MTD Overdose (%) Correct Overdose MTD Overdose (%) CRM-p 1 0.519 0.163 27.6 10.5 21.7 6 0.886 0.114 78.5 21.5 41.3 CRM-l 0.535 0.173 28.3 11.2 22.0 0.884 0.116 78.2 21.9 41.3 PBP 0.512 0.212 29.5 17.2 24.1 0.887 0.113 81.5 18.6 41.6 WTW 0.614 0.173 36.5 13.5 24.1 0.545 0.455 32.8 67.2 47.0 BO 0.520 0.189 24.8 8.9 20.2 0.940 0.060 89.2 10.8 40.5 CRM-p 2 0.590 0.082 30.1 7.8 22.2 7 0.300 0.072 11.0 2.9 16.0 CRM-l 0.603 0.092 31.1 8.2 22.6 0.332 0.082 12.1 3.4 16.3 PBP 0.638 0.073 34.1 11.5 24.4 0.331 0.226 14.7 9.4 18.3 WTW 0.701 0.063 41.7 8.6 24.6 0.385 0.000 13.1 0.0 16.0 BO 0.595 0.097 26.4 6.7 20.6 0.329 0.147 11.3 4.2 15.8 CRM-p 3 0.120 0.000 3.9 0.0 15.7 8 0.609 0.334 44.2 33.6 29.8 CRM-l 0.138 0.000 4.5 0.0 15.9 0.608 0.335 43.8 33.9 29.8 PBP 0.376 0.000 11.8 0.0 17.2 0.627 0.290 43.6 33.1 29.5 WTW 0.000 0.000 0.0 0.0 16.1 0.572 0.387 37.8 43.2 32.0 BO 0.237 0.000 5.8 0.0 15.2 0.695 0.285 48.0 23.2 26.3 CRM-p 4 0.181 0.000 5.6 0.0 14.5 9 0.631 0.258 47.8 29.9 31.3 CRM-l 0.208 0.000 6.3 0.0 14.7 0.628 0.261 47.6 30.3 31.5 PBP 0.487 0.000 14.3 0.0 15.8 0.568 0.260 40.5 33.3 31.3 WTW 0.000 0.000 0.0 0.0 14.9 0.522 0.411 36.4 51.8 37.5 BO 0.312 0.000 7.6 0.0 14.2 0.658 0.232 46.8 19.1 27.4 CRM-p 5 0.662 0.338 59.6 40.4 35.1 10 0.570 0.296 36.3 21.2 24.8 CRM-l 0.660 0.340 59.0 41.0 35.2 0.553 0.319 36.0 22.3 25.0 PBP 0.679 0.321 61.1 38.9 35.1 0.479 0.352 32.7 28.1 26.1 WTW 0.315 0.685 21.9 78.1 42.2 0.537 0.368 37.0 30.5 27.6 BO 0.759 0.241 76.2 23.8 33.4 0.592 0.279 32.5 16.0 22.4 in scenarios 2, 3, and 4, but better or comparable results in the other scenarios. While the correct MTD selection under scenario 7 is compa- levels up to j*1, it would be reasonable to be able to estimate a toxicity probability at the lowest dose more accurately than the other doses. 松井 (名古屋大) 機械学習による適応的実験計画 141 / 151
  148. 事例 v: 抗がん剤第 1 相試験における MTD の同定 能動的レベル集合推定デザイン [瀬野 +

    2022] アイデア 用量と毒性発現確率に単調な関係があるので,MTD における 毒性発現確率をしきい値として用量空間を 2 分割すれば境界 が MTD と推定できる 松井 (名古屋大) 機械学習による適応的実験計画 142 / 151
  149. 事例 v: 抗がん剤第 1 相試験における MTD の同定 能動的レベル集合推定デザイン [瀬野 +

    2022] 試験デザイン:           "  k(d, d ) = σ2 f exp − |d − d |2 2ρ2 + ξ1(d = d )   ! 松井 (名古屋大) 機械学習による適応的実験計画 143 / 151
  150. 事例 v: 抗がん剤第 1 相試験における MTD の同定 能動的レベル集合推定デザイン [瀬野 +

    2022] 獲得関数:                            松井 (名古屋大) 機械学習による適応的実験計画 144 / 151
  151. 事例 v: 抗がん剤第 1 相試験における MTD の同定 能動的レベル集合推定デザイン [瀬野 +

    2022] シミュレーションシナリオ:     松井 (名古屋大) 機械学習による適応的実験計画 145 / 151
  152. 事例 v: 抗がん剤第 1 相試験における MTD の同定 能動的レベル集合推定デザイン [瀬野 +

    2022] シミュレーション結果 1: 正しく MTD を推定できた試験の割合 松井 (名古屋大) 機械学習による適応的実験計画 146 / 151
  153. 事例 v: 抗がん剤第 1 相試験における MTD の同定 能動的レベル集合推定デザイン [瀬野 +

    2022] シミュレーション結果 2: 真の MTD より高用量を割付けた患者 の割合 松井 (名古屋大) 機械学習による適応的実験計画 147 / 151
  154. まとめ ▶ 統計的実験計画の考え方 ▶ ブラックボックス関数のベイズモデリング • ベイズ線形回帰 • ガウス過程回帰 ▶

    ベイズ最適化の基本概念 • ベイズ最適化の基本アルゴリズム • 獲得関数 ▶ レベル集合推定のための能動学習 ▶ 制約付き, コスト考慮型, 多目的問題に対するベイズ最適 化, ベイズ最適化のための転移学習 ▶ 応用事例紹介 松井 (名古屋大) 機械学習による適応的実験計画 148 / 151
  155. References [1] James S Bergstra, Rémi Bardenet, Yoshua Bengio, and

    Balázs Kégl. Algorithms for hyper-parameter optimization. NeurIPS, 2011. [2] J Bernardo, MJ Bayarri, JO Berger, AP Dawid, D Heckerman, AFM Smith, and M West. Optimization under unknown constraints. Bayesian Statistics, 9(9):229, 2011. [3] David Eriksson, Michael Pearce, Jacob Gardner, Ryan D Turner, and Matthias Poloczek. Scalable global optimization via local bayesian optimization. NeurIPS, 2019. [4] Alexander IJ Forrester, András Sóbester, and Andy J Keane. Multi-fidelity optimization via surrogate modelling. Proceedings of the royal society a: mathematical, physical and engineering sciences, 463(2088):3251–3269, 2007. [5] Jacob R Gardner, Matt J Kusner, Zhixiang Eddie Xu, Kilian Q Weinberger, and John P Cunningham. Bayesian optimization with inequality constraints. ICML, 2014. [6] Roman Garnett. Bayesian Optimization. Cambridge University Press, 2022. in preparation. [7] Alkis Gotovos, Nathalie Casati, Gregory Hitz, and Andreas Krause. Active learning for level set estimation. In IJCAI, pages 1344–1350, 2013. [8] Robert B Gramacy, Genetha A Gray, Sébastien Le Digabel, Herbert KH Lee, Pritam Ranjan, Garth Wells, and Stefan M Wild. Modeling an augmented lagrangian for blackbox constrained optimization. Technometrics, 58(1):1–11, 2016. [9] Daniel Hernández-Lobato, Jose Hernandez-Lobato, Amar Shah, and Ryan Adams. Predictive entropy search for multi-objective bayesian optimization. 2016. [10] José Miguel Hernández-Lobato, Michael Gelbart, Matthew Hoffman, Ryan Adams, and Zoubin Ghahramani. Predictive entropy search for bayesian optimization with unknown constraints. ICML, 2015. 松井 (名古屋大) 機械学習による適応的実験計画 149 / 151
  156. [11] José Miguel Hernández-Lobato, Michael A Gelbart, Ryan P Adams,

    Matthew W Hoffman, and Zoubin Ghahramani. A general framework for constrained bayesian optimization using information-based search. The Journal of Machine Learning Research, 17(1):5549–5601, 2016. [12] José Miguel Hernández-Lobato, Matthew W Hoffman, and Zoubin Ghahramani. Predictive entropy search for efficient global optimization of black-box functions. NeurIPS, 2014. [13] José Miguel Hernández-Lobato, James Requeima, Edward O Pyzer-Knapp, and Alán Aspuru-Guzik. Parallel and distributed thompson sampling for large-scale accelerated exploration of chemical space. ICML, 2020. [14] Shota Hozumi, Kentaro Kutsukake, Kota Matsui, Syunya Kusakawa, Toru Ujihara, and Ichiro Takeuchi. Adaptive defective area identification in material surface using active transfer learning-based level set estimation. arXiv preprint arXiv:2304.01404, 2023. [15] Kenta Kanamori, Kazuaki Toyoura, Junya Honda, Kazuki Hattori, Atsuto Seko, Masayuki Karasuyama, Kazuki Shitara, Motoki Shiga, Akihide Kuwabara, and Ichiro Takeuchi. Exploring a potential energy surface by machine learning for characterizing atomic transport. Physical Review B, 97(12):125124, 2018. [16] Kirthevasan Kandasamy, Jeff Schneider, and Barnabás Póczos. High dimensional bayesian optimisation and bandits via additive models. ICML, 2015. [17] Johannes Kirschner, Mojmir Mutny, Nicole Hiller, Rasmus Ischebeck, and Andreas Krause. Adaptive and safe bayesian optimization in high dimensions via one-dimensional subspaces. ICML, 2019. [18] Loic Le Gratiet and Josselin Garnier. Recursive co-kriging model for design of computer experiments with multiple levels of fidelity. International Journal for Uncertainty Quantification, 4(5), 2014. [19] Alonso Marco, Felix Berkenkamp, Philipp Hennig, Angela P Schoellig, Andreas Krause, Stefan Schaal, and Sebastian Trimpe. Virtual vs. real: Trading off simulations and physical experiments in reinforcement learning with bayesian optimization. In 2017 IEEE International Conference on Robotics and Automation (ICRA), pages 1557–1563. IEEE, 2017. [20] Kota Matsui, Shunya Kusakawa, Keisuke Ando, Kentaro Kutsukake, Toru Ujihara, and Ichiro Takeuchi. Bayesian active learning for structured output design. arXiv preprint arXiv:1911.03671, 2019. 松井 (名古屋大) 機械学習による適応的実験計画 150 / 151
  157. [21] Keiichi Osada, Kentaro Kutsukake, Jun Yamamoto, Shigeo Yamashita, Takashi

    Kodera, Yuta Nagai, Tomoyuki Horikawa, Kota Matsui, Ichiro Takeuchi, and Toru Ujihara. Adaptive bayesian optimization for epitaxial growth of si thin films under various constraints. Materials Today Communications, 25:101538, 2020. [22] Carl Edward Rasmussen and Christopher KI Williams. Gaussian process for machine learning. MIT press, 2006. [23] Bobak Shahriari, Kevin Swersky, Ziyu Wang, Ryan P Adams, and Nando De Freitas. Taking the human out of the loop: A review of bayesian optimization. Proceedings of the IEEE, 104(1):148–175, 2016. [24] Jasper Snoek. Bayesian optimization and semiparametric models with applications to assistive technology. PhD thesis, Citeseer, 2013. [25] Jasper Snoek, Hugo Larochelle, and Ryan P Adams. Practical bayesian optimization of machine learning algorithms. NeurIPS, 2012. [26] Shinya Suzuki, Shion Takeno, Tomoyuki Tamura, Kazuki Shitara, and Masayuki Karasuyama. Multi-objective bayesian optimization using pareto-frontier entropy. ICML, 2020. [27] Ami Takahashi and Taiji Suzuki. Bayesian optimization for estimating the maximum tolerated dose in phase i clinical trials. Contemporary clinical trials communications, 21:100753, 2021. [28] Kazuaki Toyoura, Daisuke Hirano, Atsuto Seko, Motoki Shiga, Akihide Kuwabara, Masayuki Karasuyama, Kazuki Shitara, and Ichiro Takeuchi. Machine-learning-based selective sampling procedure for identifying the low-energy region in a potential energy surface: A case study on proton conduction in oxides. Physical Review B, 93(5):054112, 2016. [29] Zi Wang and Stefanie Jegelka. Max-value entropy search for efficient bayesian optimization. ICML, 2017. [30] Ziyu Wang, Masrour Zoghi, Frank Hutter, David Matheson, and Nando De Freitas. Bayesian optimization in high dimensions via random embeddings. IJCAI, 2013. [31] Marcela Zuluaga, Guillaume Sergent, Andreas Krause, and Markus Püschel. Active learning for multi-objective optimization. International Conference on Machine Learning, 2013. [32] 持橋大地, 大羽成征. ガウス過程と機械学習. 講談社, 2019. [33] 須山敦志. ベイズ推論による機械学習入門. 講談社, 2017. [34] 福水健次. カーネル法入門. 朝倉書店, 2010. [35] 穂積祥太, 松井孝太, 沓掛健太朗, 宇治原徹, 竹内一郎. Level set estimation を用いた太陽電池用シリコンのレッ ドゾーンの効率的推定. In 第 33 回人工知能学会 (JSAI) 全国大会, 2019. 松井 (名古屋大) 機械学習による適応的実験計画 151 / 151