Upgrade to Pro — share decks privately, control downloads, hide ads and more …

良性の過適合

MasaKat0
August 31, 2021

 良性の過適合

良性の過適合

MasaKat0

August 31, 2021
Tweet

More Decks by MasaKat0

Other Decks in Research

Transcript

  1. Bartlett. Long, Lugosi, and Tsigler. Benign overfitting in linear regression

    n 問題意識: • サンプルサイズよりもパラメータの数が多いような,オーバーパラメトライズ された回帰モデルがなぜ予測において良い性能を発揮するのか. • 古典的な学習理論で指摘される予測性能とモデル複雑どのトレードオフ, 深層学習では発生していない? • むしろモデルを複雑にすればするほど予測性能が上がる? n 実務には役立たないかもしれない. n 深層学習の理論のホットなトピックを紹介. 概要 2
  2. • リスク𝑅 𝑓 • 経験リスク ) 𝑅 𝑓 • 仮説集合ℋ

    • (可測な)関数の集合全体ℱ • 𝑓∗ = arg min #∈ℱ 𝑅(𝑓) • 𝑓ℋ ∗ = arg min #∈ℋ 𝑅(𝑓) • 4 𝑓 = arg min #∈ℋ ) 𝑅(𝑓) 古典的な汎化誤差解析の例 8
  3. n 関数𝑓の超過リスク𝑅 𝑓∗ − 𝑅(𝑓) n 学習されたモデル 4 𝑓の超過リスクの分解 𝑅

    4 𝑓 − 𝑅 𝑓∗ = 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ + 𝑅 𝑓ℋ ∗ − 𝑅 𝑓∗ . • 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ :推定誤差 • 𝑅 𝑓ℋ ∗ − 𝑅 𝑓∗ :近似誤差(モデルの語特定に由来する) n 推定誤差を抑える. 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ ≤ ) 𝑅 𝑓ℋ ∗ − ) 𝑅 4 𝑓 + 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ ≤ 2 sup #∈ℋ |𝑅 𝑓 − ) 𝑅 𝑓 | • sup #∈ℋ |𝑅 𝑓 − ) 𝑅 𝑓 |はモデルの集合ℋが複雑になるほど大きくなる. • モデルが複雑になるほどバウンドがゆるくなるが,深層学習は逆. 古典的な汎化誤差解析の例 9
  4. n Benign overfittingの論文では,最も単純な設定である線形回帰を考える. n 線形回帰:二次損失と線形予測ルール. n 無限次元の空間(分離可能なヒルベルト空間)のデータを考える. n パラメータ空間の次元は、完全な適合(予測)ができると保証されるほど大 きいことを仮定する.

    • 特殊なケースとして有限次元の部分空間にも結果が適用される. n 期待二次損失を最小にする理想的なパラメータ(回帰モデルの真値,サン プルが無限に与えられた時の最小二乗解)を𝜃∗とする. n オーバーパラメトライズしてデータに過適合させるとき,𝜃∗のもとでの予測 精度に近づけるのはいつなのかを考える. 線形回帰モデルにおける過適合 11
  5. n ヒルベルト空間ℍにおける線形回帰モデルは共変量ベクトル𝑥 ∈ ℍと出力 𝑦 ∈ ℝによって定義される.ここで, 定義1.共分散オペレータΣ = 𝔼

    𝑥𝑥' と, 定義2.𝔼 𝑦 − 𝑥'𝜃∗ ( = min ) 𝔼 𝑦 − 𝑥'𝜃 ( を満たすように,最適パラメータ ベクトル𝜃∗ ∈ ℍを定義する. 定義1:線形回帰 12
  6. n 以下を仮定する: 仮定1.𝑥と𝑦の平均はゼロ; 仮定2.𝑥 = 𝑉Λ*/(𝑧.ここで, 𝑉ΛはΣ = 𝑉Λ𝑉'はΣの特異値分解から与えられ る.𝑧は,正の定数𝜎,

    (と任意の𝜆 ∈ ℝに対して, 𝔼 exp 𝜆'𝑧 ≤ exp(𝜎, ( 𝜆 (/2) を満たす. ⋅ はヒルベルト空間ℍ上のノルム. 仮定3.誤差項の条件付き分散は正の定数𝜎(によって, 𝔼 𝑦 − 𝑥'𝜃∗ ( 𝑥] ≥ 𝜎( として下から抑えられる. 定義1:線形回帰 13
  7. 仮定4.𝑦 − 𝑥'𝜃∗は,正の定数𝜎- (と任意の𝜆 ∈ ℝに対し,𝑥で条件づけたとき, 𝔼 exp 𝜆'(𝑦 −

    𝑥'𝜃∗) | 𝑥 ≤ exp(𝜎- (𝜆(/2) を満たす. 仮定5.ほとんど確実に,データ𝑋から,Σの任意の固有値に対して直交する空 間への射影は,次元𝑛の空間を張る. 定義1:線形回帰 14
  8. n ユーリッドノルムとヒルベルト空間のノルムをともに ⋅ であらわす. n データ𝑋 ∈ ℍ.と𝑦 ∈ ℝ.を所与として,最小ノルム推定量

    4 𝜃は min )∈ℍ 𝜃 ( such that 𝑋𝜃 − 𝑦 ( = min 0 𝑋𝛽 − 𝑦 ( の解として定義される.この解は, 4 𝜃 = arg min ) 𝜃 (: 𝑋'𝑋𝜃 = 𝑋'𝑦 = 𝑋'𝑋 1 𝑋'𝑦 = 𝑋' 𝑋'𝑋 1𝑦 となる.ここで, 𝑋'𝑋 1は有界な線形作用素の擬似逆行列である. 定義2:最小ノルム推定量 16
  9. • Σの固有値を𝜇* Σ ≥ 𝜇( Σ ≥ ⋯と降順で表記する. • Σの作用素ノルムを

    Σ と表記する. • ℍ上の恒等作用素を𝐼と表記する. • 𝑛×𝑛の単位行列を𝐼. と表記する. 表記 18
  10. n 予測性能の解析のために超過リスクを定義する. n iidな訓練サンプル 𝑥*, 𝑦* , … , 𝑥.,

    𝑦. とパラメータ𝜃 ∈ ℍの推定値 を所与として,線形回帰モデルにおける超過リスク(excess risk)は 𝑅 𝜃 ≔ 𝔼,,- 𝑌! − 𝑋! '𝜃 ( − 𝑌! − 𝑋! '𝜃∗ ( として定義される. n 𝜃に最小ノルム推定量を用いる場合の,𝑅(𝜃)の下限と上限を求める. 超過リスク 19
  11. n Σ = 𝔼[𝑥𝑥'] の固有値の観点から定義される共分散の有効ランクを用いる. n Σの固有値を𝜇* Σ ≥ 𝜇(

    Σ ≥ ⋯と降順で表記する. n 𝜆! = 𝜇! Σ (𝑖 = 1,2, … )を定義する. n 𝑘 ≥ 0に対して,∑!3* 4 𝜆! < ∞かつ𝜆56* > 0であるとき, 𝑟5 Σ = ∑!75 𝜆! 𝜆56* , 𝑅5 Σ = ∑!75 𝜆! ( ∑!75 𝜆! ( を定義する. 定義3:有効ランク 20
  12. n 任意の𝜎, に対して,以下が成立するような𝑏, 𝑐, 𝑐* > 0が存在する. n 定義1の線形回帰モデルを考える.ここで, 𝑘∗

    = min{𝑘 ≥ 0: 𝑟5 Σ ≥ 𝑏𝑛} を定義する.空集合のミニマムは∞とする. n 𝛿 < 1でlog * 8 < 𝑛/𝑐であるとする.𝑘∗ ≥ 𝑛/𝑐* であるならば,𝔼 𝑅 4 𝜃 ≥ 𝜎(/𝑐である. 定理1 21
  13. n さもなければ,少なくとも確率1 − 𝛿で, 𝑅 4 𝜃 ≤ 𝑐 𝜃∗

    ( Σ max 𝑟9 Σ 𝑛 , 𝑟9 Σ 𝑛 , log 1 𝛿 𝑛 +𝑐 log 1 𝛿 𝜎- ( 𝑘∗ 𝑛 + 𝑛 𝑅5∗ Σ であり, 𝔼 𝑅 4 𝜃 ≥ 𝜎( 𝑐 𝑘∗ 𝑛 + 𝑛 𝑅5∗ Σ である. 定理1 22
  14. n さらに,以下を満たすような定数𝑎*, 𝑎(, 𝑛9 が存在する. n 全ての𝑛 ≥ 𝑛9 と,すべての𝑡

    ≥ 0に対して,以下を満たす 𝜃∗ = 𝑡である𝜃∗ が存在する. n 𝑥 ∼ 𝒩(0, Σ)と𝑦|𝑥 ∼ 𝒩(𝑥'𝜃∗, 𝜃∗ ( Σ )に対し,少なくとも1/4の確率で, 𝑅 4 𝜃 ≥ 1 𝑎* 𝜃∗ (1 𝑟9 Σ 𝑛 log 1 + 𝑟9 Σ ≥ 𝑎( . ここで, Σ はΣの作用素ノルム. 定理1 23
  15. n 上限: 少なくとも確率1 − 𝛿で, 𝑅 𝜃 ≤ 𝑐 𝜃∗

    " Σ max 𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ • バイアス項: 𝜃∗ " Σ max &" ' ( , &" ' ( , )*+ # $ ( • 分散項: 𝑐 log , - 𝜎$ " %∗ ( + ( .%∗ ' n 下限: 𝔼 𝑅 5 𝜃 ≥ 𝜎" 𝑐 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ 定理1のまとめ 24
  16. n 定理1で示された上限について考える. 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max

    𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ n 1つ目の項: • 問題の規模(Σの固有値の総和𝑟9 Σ )がサンプルサイズ𝑛に比べて小さい 場合,𝜃∗から来ると見なせる 4 𝜃への寄与はあまり歪まないというもの. n 2つ目の項: • ラベルのノイズ𝜎- (が予測精度に与える影響を反映するもの • この有効ランクが大きいという必要十分条件は,有意なオーバーパラメタリ ゼーションの特性とみなすことができる. 定理1の解釈 25
  17. n 定理1の, 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max

    𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ は,最小ノルム推定量が最適に近い予測精度を持つためには, 1. 𝑟9(Σ)はサンプルサイズ𝑛と比べて小さくなるべきである; 2. 𝑅5∗(Σ)はサンプルサイズ𝑛と比べて大きくなるべきである; ことを示している. n この結果は,良性の過適合に対する以下の定義を導く. 定理1の解釈 26
  18. n Σ. = 1であるような共分散の系列(Σ.)は, lim .→4 𝑟9(Σ.) 𝑛 = lim

    .→4 𝑘. ∗ 𝑛 = lim .→4 𝑛 𝑅5/ ∗ (Σ.) = 0 であるときに良性である. 定義 27
  19. n 結果1(無限次元の例):固有値に対して, 𝜇5(Σ) = 𝑘;< ln;0 𝑘 + 1 𝑒

    2 を仮定する.このとき,Σは良性である if and only if 𝛼 = 1かつ𝛽 > 1. 定理2(固有値に対する2つの例) 29
  20. n 結果2(有限次元の例): • 固有値に対して, 𝜇5 Σ. = t 𝛾5 𝑖𝑓

    𝑘 ≤ 𝑝. 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 ; • 𝛾5 = Θ(exp(−𝑘/𝜏)) であるならば, Σ. = 1であるようなΣ= は良性である if and only if 𝑝. = 𝜔(𝑛) かつ𝑛 exp(−𝑜(𝑛)) = 𝜖.𝑝. = 𝑜(𝑛). n さらに,𝑝. = Ω(𝑛)かつ𝜖.𝑝. = 𝑛 exp(−𝑜(𝑛))に対して, 𝑅 4 𝜃 = 𝑂 𝜖.𝑝. + 1 𝑛 + ln 𝑛 𝜖.𝑝. 𝑛 + max 1 𝑛 , 𝑛 𝑝. 定理2(固有値に対する2つの例) 30
  21. n これらの例は,超過リスク 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max

    𝒓𝟎 𝜮 𝒏 , 𝒓𝟎 𝜮 𝒏 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝒌∗ 𝒏 + 𝒏 𝑹𝒌∗ 𝜮 において, • 5 . + . >2 を小さくするために必要な固有値の減衰と, • ?3 @ . を小さくするために必要な固有値の減衰 の間の緊張関係を示している. n 補題1:𝑟5 Σ ≥ 1,𝑟5 ( Σ = 𝑟5 Σ( 𝑅5(Σ),かつ, 𝑟5 Σ( ≤ 𝑟5 Σ ≤ 𝑅5 Σ ≤ 𝑟5 ((Σ) 定理2の解釈 33