良性の過適合

計量経済学・機械学習ゼミ統計的学習理論第N回良性の過適合 AI事業本部 AdEconチーム加藤真大 1

Bartlett. Long, Lugosi, and Tsigler. Benign overfitting in linear regression
n 問題意識： • サンプルサイズよりもパラメータの数が多いような，オーバーパラメトライズされた回帰モデルがなぜ予測において良い性能を発揮するのか． • 古典的な学習理論で指摘される予測性能とモデル複雑どのトレードオフ，深層学習では発生していない？ • むしろモデルを複雑にすればするほど予測性能が上がる？ n 実務には役立たないかもしれない． n 深層学習の理論のホットなトピックを紹介．概要 2

n 結果： • 線形回帰モデルに対して限定して考える． • サンプルサイズよりもパラメータの数が多いような回帰モデルが，どのような条件のもとで良い予測性能を持つようになるのかを考えた． • 予測性能が共変量の共分散の固有値によって特徴づけられる． •
共分散の固有値を降順に並べた時に，遅すぎず早すぎない速度で0に収束する時，良性の過適合が発生する．概要 3

予測誤差とモデルの複雑さ 4

n 良性の過適合（Benign overfitting）： • 深層学習の方法論によって明らかにされた重要な謎の1つ． • サンプルサイズに対してパラメータの数が多い状況でも予測がうまくいく． n 深層ニューラルネットワークは，回帰モデル𝑌! =
𝑓 𝑋! + 𝜀! の誤差項𝜀! の大きい訓練データに過適合しても，テストデータに対してうまく予測できる．概要 5

n 統計的学習理論における古典的な視点： • 訓練データへの適合性と予測ルールの複雑さの間にトレードオフがある． • モデルの複雑さが，パラメータの数・高次元設定における非ゼロパラメータの数・最近傍推定器で平均化された近いサンプルの数・再生カーネルヒルベルト空間における推定値のスケール・カーネル平滑化のバンド幅などで測定されるかどうかに関わらず，このトレードオフは統計的学習理論において普遍的に存在してきた．
• 深層学習では，この種の結果が参考にならない可能性が指摘されている．古典的な視点 6

n 統計学や機械学習の教科書では，すべての学習例に完全にフィットする推定値は，オーバーフィットの例として紹介されることが多い． n 深層学習手法の成功を科学的に理解するためには，学習データに完全にフィットする予測ルールの性能を理解することが必要である．古典的な視点 7

• リスク𝑅 𝑓 • 経験リスク ) 𝑅 𝑓 • 仮説集合ℋ
• （可測な）関数の集合全体ℱ • 𝑓∗ = arg min #∈ℱ 𝑅(𝑓) • 𝑓ℋ ∗ = arg min #∈ℋ 𝑅(𝑓) • 4 𝑓 = arg min #∈ℋ ) 𝑅(𝑓) 古典的な汎化誤差解析の例 8

n 関数𝑓の超過リスク𝑅 𝑓∗ − 𝑅(𝑓) n 学習されたモデル 4 𝑓の超過リスクの分解 𝑅
4 𝑓 − 𝑅 𝑓∗ = 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ + 𝑅 𝑓ℋ ∗ − 𝑅 𝑓∗ . • 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ ：推定誤差 • 𝑅 𝑓ℋ ∗ − 𝑅 𝑓∗ ：近似誤差（モデルの語特定に由来する） n 推定誤差を抑える． 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ ≤ ) 𝑅 𝑓ℋ ∗ − ) 𝑅 4 𝑓 + 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ ≤ 2 sup #∈ℋ |𝑅 𝑓 − ) 𝑅 𝑓 | • sup #∈ℋ |𝑅 𝑓 − ) 𝑅 𝑓 |はモデルの集合ℋが複雑になるほど大きくなる． • モデルが複雑になるほどバウンドがゆるくなるが，深層学習は逆．古典的な汎化誤差解析の例 9

線形回帰モデルにおける良性の過適合 10

n Benign overfittingの論文では，最も単純な設定である線形回帰を考える． n 線形回帰：二次損失と線形予測ルール． n 無限次元の空間（分離可能なヒルベルト空間）のデータを考える． n パラメータ空間の次元は、完全な適合（予測）ができると保証されるほど大きいことを仮定する．
• 特殊なケースとして有限次元の部分空間にも結果が適用される． n 期待二次損失を最小にする理想的なパラメータ（回帰モデルの真値，サンプルが無限に与えられた時の最小二乗解）を𝜃∗とする． n オーバーパラメトライズしてデータに過適合させるとき，𝜃∗のもとでの予測精度に近づけるのはいつなのかを考える．線形回帰モデルにおける過適合 11

n ヒルベルト空間ℍにおける線形回帰モデルは共変量ベクトル𝑥 ∈ ℍと出力 𝑦 ∈ ℝによって定義される．ここで，定義１．共分散オペレータΣ = 𝔼
𝑥𝑥' と，定義２．𝔼 𝑦 − 𝑥'𝜃∗ ( = min ) 𝔼 𝑦 − 𝑥'𝜃 ( を満たすように，最適パラメータベクトル𝜃∗ ∈ ℍを定義する．定義１：線形回帰 12

n 以下を仮定する：仮定１．𝑥と𝑦の平均はゼロ；仮定２．𝑥 = 𝑉Λ*/(𝑧．ここで， 𝑉ΛはΣ = 𝑉Λ𝑉'はΣの特異値分解から与えられる．𝑧は，正の定数𝜎,
(と任意の𝜆 ∈ ℝに対して， 𝔼 exp 𝜆'𝑧 ≤ exp(𝜎, ( 𝜆 (/2) を満たす． ⋅ はヒルベルト空間ℍ上のノルム．仮定３．誤差項の条件付き分散は正の定数𝜎(によって， 𝔼 𝑦 − 𝑥'𝜃∗ ( 𝑥] ≥ 𝜎( として下から抑えられる．定義１：線形回帰 13

仮定４．𝑦 − 𝑥'𝜃∗は，正の定数𝜎- (と任意の𝜆 ∈ ℝに対し，𝑥で条件づけたとき， 𝔼 exp 𝜆'(𝑦 −
𝑥'𝜃∗) | 𝑥 ≤ exp(𝜎- (𝜆(/2) を満たす．仮定５．ほとんど確実に，データ𝑋から，Σの任意の固有値に対して直交する空間への射影は，次元𝑛の空間を張る．定義１：線形回帰 14

n サンプルサイズよりもパラメータの数が多い場合を考える． → 解が複数存在する可能性がある． n 解を定めるため，学習サンプルに対して完全な予測を与える全てのベクトルの中で，最小のノルムを持つパラメータ・ベクトル 4 𝜃を選択する． •
これは，正規方程式を解くために擬似逆行列を使用することに対応する．オーバーパラメトライズの問題 15

n ユーリッドノルムとヒルベルト空間のノルムをともに ⋅ であらわす． n データ𝑋 ∈ ℍ.と𝑦 ∈ ℝ.を所与として，最小ノルム推定量
4 𝜃は min )∈ℍ 𝜃 ( such that 𝑋𝜃 − 𝑦 ( = min 0 𝑋𝛽 − 𝑦 ( の解として定義される．この解は， 4 𝜃 = arg min ) 𝜃 (: 𝑋'𝑋𝜃 = 𝑋'𝑦 = 𝑋'𝑋 1 𝑋'𝑦 = 𝑋' 𝑋'𝑋 1𝑦 となる．ここで， 𝑋'𝑋 1は有界な線形作用素の擬似逆行列である．定義２：最小ノルム推定量 16

超過リスクの解析 17

• Σの固有値を𝜇* Σ ≥ 𝜇( Σ ≥ ⋯と降順で表記する． • Σの作用素ノルムを
Σ と表記する． • ℍ上の恒等作用素を𝐼と表記する． • 𝑛×𝑛の単位行列を𝐼. と表記する．表記 18

n 予測性能の解析のために超過リスクを定義する． n iidな訓練サンプル 𝑥*, 𝑦* , … , 𝑥.,
𝑦. とパラメータ𝜃 ∈ ℍの推定値を所与として，線形回帰モデルにおける超過リスク（excess risk）は 𝑅 𝜃 ≔ 𝔼,,- 𝑌! − 𝑋! '𝜃 ( − 𝑌! − 𝑋! '𝜃∗ ( として定義される． n 𝜃に最小ノルム推定量を用いる場合の，𝑅(𝜃)の下限と上限を求める．超過リスク 19

n Σ = 𝔼[𝑥𝑥'] の固有値の観点から定義される共分散の有効ランクを用いる． n Σの固有値を𝜇* Σ ≥ 𝜇(
Σ ≥ ⋯と降順で表記する． n 𝜆! = 𝜇! Σ (𝑖 = 1,2, … )を定義する． n 𝑘 ≥ 0に対して，∑!3* 4 𝜆! < ∞かつ𝜆56* > 0であるとき， 𝑟5 Σ = ∑!75 𝜆! 𝜆56* , 𝑅5 Σ = ∑!75 𝜆! ( ∑!75 𝜆! ( を定義する．定義３：有効ランク 20

n 任意の𝜎, に対して，以下が成立するような𝑏, 𝑐, 𝑐* > 0が存在する． n 定義１の線形回帰モデルを考える．ここで， 𝑘∗
= min{𝑘 ≥ 0: 𝑟5 Σ ≥ 𝑏𝑛} を定義する．空集合のミニマムは∞とする． n 𝛿 < 1でlog * 8 < 𝑛/𝑐であるとする．𝑘∗ ≥ 𝑛/𝑐* であるならば，𝔼 𝑅 4 𝜃 ≥ 𝜎(/𝑐である．定理１ 21

n さもなければ，少なくとも確率1 − 𝛿で， 𝑅 4 𝜃 ≤ 𝑐 𝜃∗
( Σ max 𝑟9 Σ 𝑛 , 𝑟9 Σ 𝑛 , log 1 𝛿 𝑛 +𝑐 log 1 𝛿 𝜎- ( 𝑘∗ 𝑛 + 𝑛 𝑅5∗ Σ であり， 𝔼 𝑅 4 𝜃 ≥ 𝜎( 𝑐 𝑘∗ 𝑛 + 𝑛 𝑅5∗ Σ である．定理１ 22

n さらに，以下を満たすような定数𝑎*, 𝑎(, 𝑛9 が存在する． n 全ての𝑛 ≥ 𝑛9 と，すべての𝑡
≥ 0に対して，以下を満たす 𝜃∗ = 𝑡である𝜃∗ が存在する． n 𝑥 ∼ 𝒩(0, Σ)と𝑦|𝑥 ∼ 𝒩(𝑥'𝜃∗, 𝜃∗ ( Σ )に対し，少なくとも1/4の確率で， 𝑅 4 𝜃 ≥ 1 𝑎* 𝜃∗ (1 𝑟9 Σ 𝑛 log 1 + 𝑟9 Σ ≥ 𝑎( . ここで， Σ はΣの作用素ノルム．定理１ 23

n 上限：少なくとも確率1 − 𝛿で， 𝑅 𝜃 ≤ 𝑐 𝜃∗
" Σ max 𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ • バイアス項： 𝜃∗ " Σ max &" ' ( , &" ' ( , )*+ # $ ( • 分散項： 𝑐 log , - 𝜎$ " %∗ ( + ( .%∗ ' n 下限： 𝔼 𝑅 5 𝜃 ≥ 𝜎" 𝑐 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ 定理１のまとめ 24

n 定理１で示された上限について考える． 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ n １つ目の項： • 問題の規模（Σの固有値の総和𝑟9 Σ ）がサンプルサイズ𝑛に比べて小さい場合，𝜃∗から来ると見なせる 4 𝜃への寄与はあまり歪まないというもの． n ２つ目の項： • ラベルのノイズ𝜎- (が予測精度に与える影響を反映するもの • この有効ランクが大きいという必要十分条件は，有意なオーバーパラメタリゼーションの特性とみなすことができる．定理１の解釈 25

n 定理１の， 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ は，最小ノルム推定量が最適に近い予測精度を持つためには， 1. 𝑟9(Σ)はサンプルサイズ𝑛と比べて小さくなるべきである； 2. 𝑅5∗(Σ)はサンプルサイズ𝑛と比べて大きくなるべきである；ことを示している． n この結果は，良性の過適合に対する以下の定義を導く．定理１の解釈 26

n Σ. = 1であるような共分散の系列(Σ.)は， lim .→4 𝑟9(Σ.) 𝑛 = lim
.→4 𝑘. ∗ 𝑛 = lim .→4 𝑛 𝑅5/ ∗ (Σ.) = 0 であるときに良性である．定義 27

例：良性の過適合のための条件 28

n 結果１（無限次元の例）：固有値に対して， 𝜇5(Σ) = 𝑘;< ln;0 𝑘 + 1 𝑒
2 を仮定する．このとき，Σは良性である if and only if 𝛼 = 1かつ𝛽 > 1．定理２（固有値に対する２つの例） 29

n 結果２（有限次元の例）： • 固有値に対して， 𝜇5 Σ. = t 𝛾5 𝑖𝑓
𝑘 ≤ 𝑝. 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 ; • 𝛾5 = Θ(exp(−𝑘/𝜏)) であるならば， Σ. = 1であるようなΣ= は良性である if and only if 𝑝. = 𝜔(𝑛) かつ𝑛 exp(−𝑜(𝑛)) = 𝜖.𝑝. = 𝑜(𝑛)． n さらに，𝑝. = Ω(𝑛)かつ𝜖.𝑝. = 𝑛 exp(−𝑜(𝑛))に対して， 𝑅 4 𝜃 = 𝑂 𝜖.𝑝. + 1 𝑛 + ln 𝑛 𝜖.𝑝. 𝑛 + max 1 𝑛 , 𝑛 𝑝. 定理２（固有値に対する２つの例） 30

n 結果１：無限次元のデータで共分散が固定されている場合，共分散の固有値が特定の収束レートで減衰する場合に限り，良性の過適合が起こることを示している． n 結果２：データが有限次元であり，共分散のノイズが同じ方向である場合には，結果１の状況に加えて，以下の状況でも良性の過適合がおこる． • 共分散の固有値が， 1.
次元がサンプルサイズに比べて大きく， 2. 共分散の等方性成分がサンプルサイズに比べて十分に小さい（指数関数的に小さくはない）；場合には良性の過適合が起こる．定理２の解釈 31

n つまり，良好な過適合を可能にする固有値のパターンを調べると，「次元は大きいがたかだか有限の場合」に興味深い役割があることがわかる． ↔ 無限次元の場合には，良好なオーバーフィッティングは，固有値の減衰率が狭い範囲でしか起こらない． • 一方，サンプルサイズよりも，速く増大する次元を持つ有限次元の空間では，より広い範囲で減衰する固有値列で良性の過適合は発生する． n
このように，線形回帰では， • 無限次元の空間にあるデータでは良性の過適合は難しいが， • 大きくても有限次元の空間にあるデータでは，より広い共分散の特性のもとで良性の過適合が起こる．定理２の解釈 32

n これらの例は，超過リスク 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
𝒓𝟎 𝜮 𝒏 , 𝒓𝟎 𝜮 𝒏 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝒌∗ 𝒏 + 𝒏 𝑹𝒌∗ 𝜮 において， • 5 . + . >2 を小さくするために必要な固有値の減衰と， • ?3 @ . を小さくするために必要な固有値の減衰の間の緊張関係を示している． n 補題１：𝑟5 Σ ≥ 1，𝑟5 ( Σ = 𝑟5 Σ( 𝑅5(Σ)，かつ， 𝑟5 Σ( ≤ 𝑟5 Σ ≤ 𝑅5 Σ ≤ 𝑟5 ((Σ) 定理２の解釈 33

良性の過適合

良性の過適合

MasaKat0

More Decks by MasaKat0

Other Decks in Research

Featured

Transcript

計量経済学・機械学習ゼミ統計的学習理論第N回良性の過適合 AI事業本部 AdEconチーム加藤真大 1

Bartlett. Long, Lugosi, and Tsigler. Benign overfitting in linear regression

予測誤差とモデルの複雑さ 4

• リスク𝑅 𝑓 • 経験リスク ) 𝑅 𝑓 • 仮説集合ℋ

n 関数𝑓の超過リスク𝑅 𝑓∗ − 𝑅(𝑓) n 学習されたモデル 4 𝑓の超過リスクの分解 𝑅

線形回帰モデルにおける良性の過適合 10

n ヒルベルト空間ℍにおける線形回帰モデルは共変量ベクトル𝑥 ∈ ℍと出力 𝑦 ∈ ℝによって定義される．ここで，定義１．共分散オペレータΣ = 𝔼

n 以下を仮定する：仮定１．𝑥と𝑦の平均はゼロ；仮定２．𝑥 = 𝑉Λ*/(𝑧．ここで， 𝑉ΛはΣ = 𝑉Λ𝑉'はΣの特異値分解から与えられる．𝑧は，正の定数𝜎,

仮定４．𝑦 − 𝑥'𝜃∗は，正の定数𝜎- (と任意の𝜆 ∈ ℝに対し，𝑥で条件づけたとき， 𝔼 exp 𝜆'(𝑦 −

n ユーリッドノルムとヒルベルト空間のノルムをともに ⋅ であらわす． n データ𝑋 ∈ ℍ.と𝑦 ∈ ℝ.を所与として，最小ノルム推定量

超過リスクの解析 17

• Σの固有値を𝜇* Σ ≥ 𝜇( Σ ≥ ⋯と降順で表記する． • Σの作用素ノルムを

n 予測性能の解析のために超過リスクを定義する． n iidな訓練サンプル 𝑥, 𝑦 , … , 𝑥.,

n Σ = 𝔼[𝑥𝑥'] の固有値の観点から定義される共分散の有効ランクを用いる． n Σの固有値を𝜇* Σ ≥ 𝜇(

n 任意の𝜎, に対して，以下が成立するような𝑏, 𝑐, 𝑐* > 0が存在する． n 定義１の線形回帰モデルを考える．ここで， 𝑘∗

n さもなければ，少なくとも確率1 − 𝛿で， 𝑅 4 𝜃 ≤ 𝑐 𝜃∗

n さらに，以下を満たすような定数𝑎*, 𝑎(, 𝑛9 が存在する． n 全ての𝑛 ≥ 𝑛9 と，すべての𝑡

n 上限：少なくとも確率1 − 𝛿で， 𝑅 𝜃 ≤ 𝑐 𝜃∗

n 定理１で示された上限について考える． 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max

n 定理１の， 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max

n Σ. = 1であるような共分散の系列(Σ.)は， lim .→4 𝑟9(Σ.) 𝑛 = lim

例：良性の過適合のための条件 28

n 結果１（無限次元の例）：固有値に対して， 𝜇5(Σ) = 𝑘;< ln;0 𝑘 + 1 𝑒

n 結果２（有限次元の例）： • 固有値に対して， 𝜇5 Σ. = t 𝛾5 𝑖𝑓

n これらの例は，超過リスク 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max