Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
良性の過適合
Search
MasaKat0
August 31, 2021
Research
1
890
良性の過適合
良性の過適合
MasaKat0
August 31, 2021
Tweet
Share
More Decks by MasaKat0
See All by MasaKat0
Adaptive Policy Learning
masakat0
0
14
Active Adaptive Experimental Design for Treatment Effect Estimation with Covariate Choices
masakat0
0
240
Analysis of the Temporal Structure in Economic Condition Assessments
masakat0
0
69
最適腕識別@連合大会
masakat0
0
290
Mean-Variance RL (JAFEE 2023)
masakat0
1
520
Synthetic Control Methods through Predictive Synthesis
masakat0
0
300
Synthetic Control Method(合成コントロール法)1
masakat0
1
5k
Score-Based Generative Modelingthrough Stochastic Differential Equation
masakat0
0
1.3k
Optimal Best Arm Identification with a Fixed Budget under a Small Gap
masakat0
0
210
Other Decks in Research
See All in Research
ソフトウェア研究における脅威モデリング
laysakura
0
930
Weekly AI Agents News! 8月号 プロダクト/ニュースのアーカイブ
masatoto
1
210
日本語医療LLM評価ベンチマークの構築と性能分析
fta98
3
780
尺度開発における質的研究アプローチ(自主企画シンポジウム7:認知行動療法における尺度開発のこれから)
litalicolab
0
360
非ガウス性と非線形性に基づく統計的因果探索
sshimizu2006
0
440
文書画像のデータ化における VLM活用 / Use of VLM in document image data conversion
sansan_randd
2
320
アプリケーションから知るモデルマージ
maguro27
0
170
The Fellowship of Trust in AI
tomzimmermann
0
150
20240918 交通くまもとーく 未来の鉄道網編(太田恒平)
trafficbrain
0
350
[依頼講演] 適応的実験計画法に基づく効率的無線システム設計
k_sato
0
170
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
3
700
Whoisの闇
hirachan
3
160
Featured
See All Featured
The Pragmatic Product Professional
lauravandoore
32
6.3k
The Invisible Side of Design
smashingmag
298
50k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
17
2.3k
Adopting Sorbet at Scale
ufuk
73
9.1k
It's Worth the Effort
3n
183
28k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
A Tale of Four Properties
chriscoyier
157
23k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
28
8.3k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
Reflections from 52 weeks, 52 projects
jeffersonlam
347
20k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
28
4.4k
Statistics for Hackers
jakevdp
796
220k
Transcript
計量経済学・機械学習ゼミ 統計的学習理論 第N回 良性の過適合 AI事業本部 AdEconチーム 加藤真大 1
Bartlett. Long, Lugosi, and Tsigler. Benign overfitting in linear regression
n 問題意識: • サンプルサイズよりもパラメータの数が多いような,オーバーパラメトライズ された回帰モデルがなぜ予測において良い性能を発揮するのか. • 古典的な学習理論で指摘される予測性能とモデル複雑どのトレードオフ, 深層学習では発生していない? • むしろモデルを複雑にすればするほど予測性能が上がる? n 実務には役立たないかもしれない. n 深層学習の理論のホットなトピックを紹介. 概要 2
n 結果: • 線形回帰モデルに対して限定して考える. • サンプルサイズよりもパラメータの数が多いような回帰モデルが,どのよう な条件のもとで良い予測性能を持つようになるのかを考えた. • 予測性能が共変量の共分散の固有値によって特徴づけられる. •
共分散の固有値を降順に並べた時に,遅すぎず早すぎない速度で0に収 束する時,良性の過適合が発生する. 概要 3
予測誤差とモデルの複雑さ 4
n 良性の過適合(Benign overfitting): • 深層学習の方法論によって明らかにされた重要な謎の1つ. • サンプルサイズに対してパラメータの数が多い状況でも予測がうまくいく. n 深層ニューラルネットワークは,回帰モデル𝑌! =
𝑓 𝑋! + 𝜀! の誤差項𝜀! の 大きい訓練データに過適合しても,テストデータに対してうまく予測できる. 概要 5
n 統計的学習理論における古典的な視点: • 訓練データへの適合性と予測ルールの複雑さの間にトレードオフがある. • モデルの複雑さが,パラメータの数・高次元設定における非ゼロパラメータ の数・最近傍推定器で平均化された近いサンプルの数・再生カーネルヒル ベルト空間における推定値のスケール・カーネル平滑化のバンド幅などで 測定されるかどうかに関わらず,このトレードオフは統計的学習理論にお いて普遍的に存在してきた.
• 深層学習では,この種の結果が参考にならない可能性が指摘されている. 古典的な視点 6
n 統計学や機械学習の教科書では,すべての学習例に完全にフィットする推 定値は,オーバーフィットの例として紹介されることが多い. n 深層学習手法の成功を科学的に理解するためには,学習データに完全に フィットする予測ルールの性能を理解することが必要である. 古典的な視点 7
• リスク𝑅 𝑓 • 経験リスク ) 𝑅 𝑓 • 仮説集合ℋ
• (可測な)関数の集合全体ℱ • 𝑓∗ = arg min #∈ℱ 𝑅(𝑓) • 𝑓ℋ ∗ = arg min #∈ℋ 𝑅(𝑓) • 4 𝑓 = arg min #∈ℋ ) 𝑅(𝑓) 古典的な汎化誤差解析の例 8
n 関数𝑓の超過リスク𝑅 𝑓∗ − 𝑅(𝑓) n 学習されたモデル 4 𝑓の超過リスクの分解 𝑅
4 𝑓 − 𝑅 𝑓∗ = 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ + 𝑅 𝑓ℋ ∗ − 𝑅 𝑓∗ . • 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ :推定誤差 • 𝑅 𝑓ℋ ∗ − 𝑅 𝑓∗ :近似誤差(モデルの語特定に由来する) n 推定誤差を抑える. 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ ≤ ) 𝑅 𝑓ℋ ∗ − ) 𝑅 4 𝑓 + 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ ≤ 2 sup #∈ℋ |𝑅 𝑓 − ) 𝑅 𝑓 | • sup #∈ℋ |𝑅 𝑓 − ) 𝑅 𝑓 |はモデルの集合ℋが複雑になるほど大きくなる. • モデルが複雑になるほどバウンドがゆるくなるが,深層学習は逆. 古典的な汎化誤差解析の例 9
線形回帰モデルにおける 良性の過適合 10
n Benign overfittingの論文では,最も単純な設定である線形回帰を考える. n 線形回帰:二次損失と線形予測ルール. n 無限次元の空間(分離可能なヒルベルト空間)のデータを考える. n パラメータ空間の次元は、完全な適合(予測)ができると保証されるほど大 きいことを仮定する.
• 特殊なケースとして有限次元の部分空間にも結果が適用される. n 期待二次損失を最小にする理想的なパラメータ(回帰モデルの真値,サン プルが無限に与えられた時の最小二乗解)を𝜃∗とする. n オーバーパラメトライズしてデータに過適合させるとき,𝜃∗のもとでの予測 精度に近づけるのはいつなのかを考える. 線形回帰モデルにおける過適合 11
n ヒルベルト空間ℍにおける線形回帰モデルは共変量ベクトル𝑥 ∈ ℍと出力 𝑦 ∈ ℝによって定義される.ここで, 定義1.共分散オペレータΣ = 𝔼
𝑥𝑥' と, 定義2.𝔼 𝑦 − 𝑥'𝜃∗ ( = min ) 𝔼 𝑦 − 𝑥'𝜃 ( を満たすように,最適パラメータ ベクトル𝜃∗ ∈ ℍを定義する. 定義1:線形回帰 12
n 以下を仮定する: 仮定1.𝑥と𝑦の平均はゼロ; 仮定2.𝑥 = 𝑉Λ*/(𝑧.ここで, 𝑉ΛはΣ = 𝑉Λ𝑉'はΣの特異値分解から与えられ る.𝑧は,正の定数𝜎,
(と任意の𝜆 ∈ ℝに対して, 𝔼 exp 𝜆'𝑧 ≤ exp(𝜎, ( 𝜆 (/2) を満たす. ⋅ はヒルベルト空間ℍ上のノルム. 仮定3.誤差項の条件付き分散は正の定数𝜎(によって, 𝔼 𝑦 − 𝑥'𝜃∗ ( 𝑥] ≥ 𝜎( として下から抑えられる. 定義1:線形回帰 13
仮定4.𝑦 − 𝑥'𝜃∗は,正の定数𝜎- (と任意の𝜆 ∈ ℝに対し,𝑥で条件づけたとき, 𝔼 exp 𝜆'(𝑦 −
𝑥'𝜃∗) | 𝑥 ≤ exp(𝜎- (𝜆(/2) を満たす. 仮定5.ほとんど確実に,データ𝑋から,Σの任意の固有値に対して直交する空 間への射影は,次元𝑛の空間を張る. 定義1:線形回帰 14
n サンプルサイズよりもパラメータの数が多い場合を考える. → 解が複数存在する可能性がある. n 解を定めるため,学習サンプルに対して完全な予測を与える全てのベクト ルの中で,最小のノルムを持つパラメータ・ベクトル 4 𝜃を選択する. •
これは,正規方程式を解くために擬似逆行列を使用することに対応する. オーバーパラメトライズの問題 15
n ユーリッドノルムとヒルベルト空間のノルムをともに ⋅ であらわす. n データ𝑋 ∈ ℍ.と𝑦 ∈ ℝ.を所与として,最小ノルム推定量
4 𝜃は min )∈ℍ 𝜃 ( such that 𝑋𝜃 − 𝑦 ( = min 0 𝑋𝛽 − 𝑦 ( の解として定義される.この解は, 4 𝜃 = arg min ) 𝜃 (: 𝑋'𝑋𝜃 = 𝑋'𝑦 = 𝑋'𝑋 1 𝑋'𝑦 = 𝑋' 𝑋'𝑋 1𝑦 となる.ここで, 𝑋'𝑋 1は有界な線形作用素の擬似逆行列である. 定義2:最小ノルム推定量 16
超過リスクの解析 17
• Σの固有値を𝜇* Σ ≥ 𝜇( Σ ≥ ⋯と降順で表記する. • Σの作用素ノルムを
Σ と表記する. • ℍ上の恒等作用素を𝐼と表記する. • 𝑛×𝑛の単位行列を𝐼. と表記する. 表記 18
n 予測性能の解析のために超過リスクを定義する. n iidな訓練サンプル 𝑥*, 𝑦* , … , 𝑥.,
𝑦. とパラメータ𝜃 ∈ ℍの推定値 を所与として,線形回帰モデルにおける超過リスク(excess risk)は 𝑅 𝜃 ≔ 𝔼,,- 𝑌! − 𝑋! '𝜃 ( − 𝑌! − 𝑋! '𝜃∗ ( として定義される. n 𝜃に最小ノルム推定量を用いる場合の,𝑅(𝜃)の下限と上限を求める. 超過リスク 19
n Σ = 𝔼[𝑥𝑥'] の固有値の観点から定義される共分散の有効ランクを用いる. n Σの固有値を𝜇* Σ ≥ 𝜇(
Σ ≥ ⋯と降順で表記する. n 𝜆! = 𝜇! Σ (𝑖 = 1,2, … )を定義する. n 𝑘 ≥ 0に対して,∑!3* 4 𝜆! < ∞かつ𝜆56* > 0であるとき, 𝑟5 Σ = ∑!75 𝜆! 𝜆56* , 𝑅5 Σ = ∑!75 𝜆! ( ∑!75 𝜆! ( を定義する. 定義3:有効ランク 20
n 任意の𝜎, に対して,以下が成立するような𝑏, 𝑐, 𝑐* > 0が存在する. n 定義1の線形回帰モデルを考える.ここで, 𝑘∗
= min{𝑘 ≥ 0: 𝑟5 Σ ≥ 𝑏𝑛} を定義する.空集合のミニマムは∞とする. n 𝛿 < 1でlog * 8 < 𝑛/𝑐であるとする.𝑘∗ ≥ 𝑛/𝑐* であるならば,𝔼 𝑅 4 𝜃 ≥ 𝜎(/𝑐である. 定理1 21
n さもなければ,少なくとも確率1 − 𝛿で, 𝑅 4 𝜃 ≤ 𝑐 𝜃∗
( Σ max 𝑟9 Σ 𝑛 , 𝑟9 Σ 𝑛 , log 1 𝛿 𝑛 +𝑐 log 1 𝛿 𝜎- ( 𝑘∗ 𝑛 + 𝑛 𝑅5∗ Σ であり, 𝔼 𝑅 4 𝜃 ≥ 𝜎( 𝑐 𝑘∗ 𝑛 + 𝑛 𝑅5∗ Σ である. 定理1 22
n さらに,以下を満たすような定数𝑎*, 𝑎(, 𝑛9 が存在する. n 全ての𝑛 ≥ 𝑛9 と,すべての𝑡
≥ 0に対して,以下を満たす 𝜃∗ = 𝑡である𝜃∗ が存在する. n 𝑥 ∼ 𝒩(0, Σ)と𝑦|𝑥 ∼ 𝒩(𝑥'𝜃∗, 𝜃∗ ( Σ )に対し,少なくとも1/4の確率で, 𝑅 4 𝜃 ≥ 1 𝑎* 𝜃∗ (1 𝑟9 Σ 𝑛 log 1 + 𝑟9 Σ ≥ 𝑎( . ここで, Σ はΣの作用素ノルム. 定理1 23
n 上限: 少なくとも確率1 − 𝛿で, 𝑅 𝜃 ≤ 𝑐 𝜃∗
" Σ max 𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ • バイアス項: 𝜃∗ " Σ max &" ' ( , &" ' ( , )*+ # $ ( • 分散項: 𝑐 log , - 𝜎$ " %∗ ( + ( .%∗ ' n 下限: 𝔼 𝑅 5 𝜃 ≥ 𝜎" 𝑐 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ 定理1のまとめ 24
n 定理1で示された上限について考える. 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ n 1つ目の項: • 問題の規模(Σの固有値の総和𝑟9 Σ )がサンプルサイズ𝑛に比べて小さい 場合,𝜃∗から来ると見なせる 4 𝜃への寄与はあまり歪まないというもの. n 2つ目の項: • ラベルのノイズ𝜎- (が予測精度に与える影響を反映するもの • この有効ランクが大きいという必要十分条件は,有意なオーバーパラメタリ ゼーションの特性とみなすことができる. 定理1の解釈 25
n 定理1の, 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ は,最小ノルム推定量が最適に近い予測精度を持つためには, 1. 𝑟9(Σ)はサンプルサイズ𝑛と比べて小さくなるべきである; 2. 𝑅5∗(Σ)はサンプルサイズ𝑛と比べて大きくなるべきである; ことを示している. n この結果は,良性の過適合に対する以下の定義を導く. 定理1の解釈 26
n Σ. = 1であるような共分散の系列(Σ.)は, lim .→4 𝑟9(Σ.) 𝑛 = lim
.→4 𝑘. ∗ 𝑛 = lim .→4 𝑛 𝑅5/ ∗ (Σ.) = 0 であるときに良性である. 定義 27
例:良性の過適合のための条件 28
n 結果1(無限次元の例):固有値に対して, 𝜇5(Σ) = 𝑘;< ln;0 𝑘 + 1 𝑒
2 を仮定する.このとき,Σは良性である if and only if 𝛼 = 1かつ𝛽 > 1. 定理2(固有値に対する2つの例) 29
n 結果2(有限次元の例): • 固有値に対して, 𝜇5 Σ. = t 𝛾5 𝑖𝑓
𝑘 ≤ 𝑝. 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 ; • 𝛾5 = Θ(exp(−𝑘/𝜏)) であるならば, Σ. = 1であるようなΣ= は良性である if and only if 𝑝. = 𝜔(𝑛) かつ𝑛 exp(−𝑜(𝑛)) = 𝜖.𝑝. = 𝑜(𝑛). n さらに,𝑝. = Ω(𝑛)かつ𝜖.𝑝. = 𝑛 exp(−𝑜(𝑛))に対して, 𝑅 4 𝜃 = 𝑂 𝜖.𝑝. + 1 𝑛 + ln 𝑛 𝜖.𝑝. 𝑛 + max 1 𝑛 , 𝑛 𝑝. 定理2(固有値に対する2つの例) 30
n 結果1:無限次元のデータで共分散が固定されている場合, 共分散の固有値が特定の収束レートで減衰する場合に限り,良性の過適合 が起こることを示している. n 結果2:データが有限次元であり,共分散のノイズが同じ方向である場合に は,結果1の状況に加えて,以下の状況でも良性の過適合がおこる. • 共分散の固有値が, 1.
次元がサンプルサイズに比べて大きく, 2. 共分散の等方性成分がサンプルサイズに比べて十分に小さい(指数関数 的に小さくはない); 場合には良性の過適合が起こる. 定理2の解釈 31
n つまり,良好な過適合を可能にする固有値のパターンを調べると,「次元は 大きいがたかだか有限の場合」に興味深い役割があることがわかる. ↔ 無限次元の場合には,良好なオーバーフィッティングは,固有値の減衰率 が狭い範囲でしか起こらない. • 一方,サンプルサイズよりも,速く増大する次元を持つ有限次元の空間で は,より広い範囲で減衰する固有値列で良性の過適合は発生する. n
このように,線形回帰では, • 無限次元の空間にあるデータでは良性の過適合は難しいが, • 大きくても有限次元の空間にあるデータでは,より広い共分散の特性のも とで良性の過適合が起こる. 定理2の解釈 32
n これらの例は,超過リスク 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
𝒓𝟎 𝜮 𝒏 , 𝒓𝟎 𝜮 𝒏 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝒌∗ 𝒏 + 𝒏 𝑹𝒌∗ 𝜮 において, • 5 . + . >2 を小さくするために必要な固有値の減衰と, • ?3 @ . を小さくするために必要な固有値の減衰 の間の緊張関係を示している. n 補題1:𝑟5 Σ ≥ 1,𝑟5 ( Σ = 𝑟5 Σ( 𝑅5(Σ),かつ, 𝑟5 Σ( ≤ 𝑟5 Σ ≤ 𝑅5 Σ ≤ 𝑟5 ((Σ) 定理2の解釈 33