Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
良性の過適合
Search
MasaKat0
August 31, 2021
Research
1
870
良性の過適合
良性の過適合
MasaKat0
August 31, 2021
Tweet
Share
More Decks by MasaKat0
See All by MasaKat0
Adaptive Policy Learning
masakat0
0
7
Active Adaptive Experimental Design for Treatment Effect Estimation with Covariate Choices
masakat0
0
220
Analysis of the Temporal Structure in Economic Condition Assessments
masakat0
0
60
最適腕識別@連合大会
masakat0
0
270
Mean-Variance RL (JAFEE 2023)
masakat0
1
510
Synthetic Control Methods through Predictive Synthesis
masakat0
0
280
Synthetic Control Method(合成コントロール法)1
masakat0
1
4.8k
Score-Based Generative Modelingthrough Stochastic Differential Equation
masakat0
0
1.2k
Optimal Best Arm Identification with a Fixed Budget under a Small Gap
masakat0
0
210
Other Decks in Research
See All in Research
「並列化時代の乱数生成」
abap34
3
820
Weekly AI Agents News! 9月号 論文のアーカイブ
masatoto
1
120
MIRU2024チュートリアル「様々なセンサやモダリティを用いたシーン状態推定」
miso2024
4
2.2k
システムから変える 自分と世界を変えるシステムチェンジの方法論 / Systems Change Approaches
dmattsun
3
860
ニューラルネットワークの損失地形
joisino
PRO
35
16k
データサイエンティストをめぐる環境の違い 2024年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
580
授業評価アンケートのテキストマイニング
langstat
1
360
最近のVisual Odometryと Depth Estimation
sgk
1
270
MIRU2024_招待講演_RALF_in_CVPR2024
udonda
1
330
LiDARとカメラのセンサーフュージョンによる点群からのノイズ除去
kentaitakura
0
130
20241115都市交通決起集会 趣旨説明・熊本事例紹介
trafficbrain
0
230
Weekly AI Agents News! 7月号 論文のアーカイブ
masatoto
1
220
Featured
See All Featured
Code Review Best Practice
trishagee
64
17k
10 Git Anti Patterns You Should be Aware of
lemiorhan
654
59k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
720
We Have a Design System, Now What?
morganepeng
50
7.2k
How GitHub (no longer) Works
holman
310
140k
Into the Great Unknown - MozCon
thekraken
32
1.5k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
What's in a price? How to price your products and services
michaelherold
243
12k
Docker and Python
trallard
40
3.1k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
506
140k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
Transcript
計量経済学・機械学習ゼミ 統計的学習理論 第N回 良性の過適合 AI事業本部 AdEconチーム 加藤真大 1
Bartlett. Long, Lugosi, and Tsigler. Benign overfitting in linear regression
n 問題意識: • サンプルサイズよりもパラメータの数が多いような,オーバーパラメトライズ された回帰モデルがなぜ予測において良い性能を発揮するのか. • 古典的な学習理論で指摘される予測性能とモデル複雑どのトレードオフ, 深層学習では発生していない? • むしろモデルを複雑にすればするほど予測性能が上がる? n 実務には役立たないかもしれない. n 深層学習の理論のホットなトピックを紹介. 概要 2
n 結果: • 線形回帰モデルに対して限定して考える. • サンプルサイズよりもパラメータの数が多いような回帰モデルが,どのよう な条件のもとで良い予測性能を持つようになるのかを考えた. • 予測性能が共変量の共分散の固有値によって特徴づけられる. •
共分散の固有値を降順に並べた時に,遅すぎず早すぎない速度で0に収 束する時,良性の過適合が発生する. 概要 3
予測誤差とモデルの複雑さ 4
n 良性の過適合(Benign overfitting): • 深層学習の方法論によって明らかにされた重要な謎の1つ. • サンプルサイズに対してパラメータの数が多い状況でも予測がうまくいく. n 深層ニューラルネットワークは,回帰モデル𝑌! =
𝑓 𝑋! + 𝜀! の誤差項𝜀! の 大きい訓練データに過適合しても,テストデータに対してうまく予測できる. 概要 5
n 統計的学習理論における古典的な視点: • 訓練データへの適合性と予測ルールの複雑さの間にトレードオフがある. • モデルの複雑さが,パラメータの数・高次元設定における非ゼロパラメータ の数・最近傍推定器で平均化された近いサンプルの数・再生カーネルヒル ベルト空間における推定値のスケール・カーネル平滑化のバンド幅などで 測定されるかどうかに関わらず,このトレードオフは統計的学習理論にお いて普遍的に存在してきた.
• 深層学習では,この種の結果が参考にならない可能性が指摘されている. 古典的な視点 6
n 統計学や機械学習の教科書では,すべての学習例に完全にフィットする推 定値は,オーバーフィットの例として紹介されることが多い. n 深層学習手法の成功を科学的に理解するためには,学習データに完全に フィットする予測ルールの性能を理解することが必要である. 古典的な視点 7
• リスク𝑅 𝑓 • 経験リスク ) 𝑅 𝑓 • 仮説集合ℋ
• (可測な)関数の集合全体ℱ • 𝑓∗ = arg min #∈ℱ 𝑅(𝑓) • 𝑓ℋ ∗ = arg min #∈ℋ 𝑅(𝑓) • 4 𝑓 = arg min #∈ℋ ) 𝑅(𝑓) 古典的な汎化誤差解析の例 8
n 関数𝑓の超過リスク𝑅 𝑓∗ − 𝑅(𝑓) n 学習されたモデル 4 𝑓の超過リスクの分解 𝑅
4 𝑓 − 𝑅 𝑓∗ = 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ + 𝑅 𝑓ℋ ∗ − 𝑅 𝑓∗ . • 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ :推定誤差 • 𝑅 𝑓ℋ ∗ − 𝑅 𝑓∗ :近似誤差(モデルの語特定に由来する) n 推定誤差を抑える. 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ ≤ ) 𝑅 𝑓ℋ ∗ − ) 𝑅 4 𝑓 + 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ ≤ 2 sup #∈ℋ |𝑅 𝑓 − ) 𝑅 𝑓 | • sup #∈ℋ |𝑅 𝑓 − ) 𝑅 𝑓 |はモデルの集合ℋが複雑になるほど大きくなる. • モデルが複雑になるほどバウンドがゆるくなるが,深層学習は逆. 古典的な汎化誤差解析の例 9
線形回帰モデルにおける 良性の過適合 10
n Benign overfittingの論文では,最も単純な設定である線形回帰を考える. n 線形回帰:二次損失と線形予測ルール. n 無限次元の空間(分離可能なヒルベルト空間)のデータを考える. n パラメータ空間の次元は、完全な適合(予測)ができると保証されるほど大 きいことを仮定する.
• 特殊なケースとして有限次元の部分空間にも結果が適用される. n 期待二次損失を最小にする理想的なパラメータ(回帰モデルの真値,サン プルが無限に与えられた時の最小二乗解)を𝜃∗とする. n オーバーパラメトライズしてデータに過適合させるとき,𝜃∗のもとでの予測 精度に近づけるのはいつなのかを考える. 線形回帰モデルにおける過適合 11
n ヒルベルト空間ℍにおける線形回帰モデルは共変量ベクトル𝑥 ∈ ℍと出力 𝑦 ∈ ℝによって定義される.ここで, 定義1.共分散オペレータΣ = 𝔼
𝑥𝑥' と, 定義2.𝔼 𝑦 − 𝑥'𝜃∗ ( = min ) 𝔼 𝑦 − 𝑥'𝜃 ( を満たすように,最適パラメータ ベクトル𝜃∗ ∈ ℍを定義する. 定義1:線形回帰 12
n 以下を仮定する: 仮定1.𝑥と𝑦の平均はゼロ; 仮定2.𝑥 = 𝑉Λ*/(𝑧.ここで, 𝑉ΛはΣ = 𝑉Λ𝑉'はΣの特異値分解から与えられ る.𝑧は,正の定数𝜎,
(と任意の𝜆 ∈ ℝに対して, 𝔼 exp 𝜆'𝑧 ≤ exp(𝜎, ( 𝜆 (/2) を満たす. ⋅ はヒルベルト空間ℍ上のノルム. 仮定3.誤差項の条件付き分散は正の定数𝜎(によって, 𝔼 𝑦 − 𝑥'𝜃∗ ( 𝑥] ≥ 𝜎( として下から抑えられる. 定義1:線形回帰 13
仮定4.𝑦 − 𝑥'𝜃∗は,正の定数𝜎- (と任意の𝜆 ∈ ℝに対し,𝑥で条件づけたとき, 𝔼 exp 𝜆'(𝑦 −
𝑥'𝜃∗) | 𝑥 ≤ exp(𝜎- (𝜆(/2) を満たす. 仮定5.ほとんど確実に,データ𝑋から,Σの任意の固有値に対して直交する空 間への射影は,次元𝑛の空間を張る. 定義1:線形回帰 14
n サンプルサイズよりもパラメータの数が多い場合を考える. → 解が複数存在する可能性がある. n 解を定めるため,学習サンプルに対して完全な予測を与える全てのベクト ルの中で,最小のノルムを持つパラメータ・ベクトル 4 𝜃を選択する. •
これは,正規方程式を解くために擬似逆行列を使用することに対応する. オーバーパラメトライズの問題 15
n ユーリッドノルムとヒルベルト空間のノルムをともに ⋅ であらわす. n データ𝑋 ∈ ℍ.と𝑦 ∈ ℝ.を所与として,最小ノルム推定量
4 𝜃は min )∈ℍ 𝜃 ( such that 𝑋𝜃 − 𝑦 ( = min 0 𝑋𝛽 − 𝑦 ( の解として定義される.この解は, 4 𝜃 = arg min ) 𝜃 (: 𝑋'𝑋𝜃 = 𝑋'𝑦 = 𝑋'𝑋 1 𝑋'𝑦 = 𝑋' 𝑋'𝑋 1𝑦 となる.ここで, 𝑋'𝑋 1は有界な線形作用素の擬似逆行列である. 定義2:最小ノルム推定量 16
超過リスクの解析 17
• Σの固有値を𝜇* Σ ≥ 𝜇( Σ ≥ ⋯と降順で表記する. • Σの作用素ノルムを
Σ と表記する. • ℍ上の恒等作用素を𝐼と表記する. • 𝑛×𝑛の単位行列を𝐼. と表記する. 表記 18
n 予測性能の解析のために超過リスクを定義する. n iidな訓練サンプル 𝑥*, 𝑦* , … , 𝑥.,
𝑦. とパラメータ𝜃 ∈ ℍの推定値 を所与として,線形回帰モデルにおける超過リスク(excess risk)は 𝑅 𝜃 ≔ 𝔼,,- 𝑌! − 𝑋! '𝜃 ( − 𝑌! − 𝑋! '𝜃∗ ( として定義される. n 𝜃に最小ノルム推定量を用いる場合の,𝑅(𝜃)の下限と上限を求める. 超過リスク 19
n Σ = 𝔼[𝑥𝑥'] の固有値の観点から定義される共分散の有効ランクを用いる. n Σの固有値を𝜇* Σ ≥ 𝜇(
Σ ≥ ⋯と降順で表記する. n 𝜆! = 𝜇! Σ (𝑖 = 1,2, … )を定義する. n 𝑘 ≥ 0に対して,∑!3* 4 𝜆! < ∞かつ𝜆56* > 0であるとき, 𝑟5 Σ = ∑!75 𝜆! 𝜆56* , 𝑅5 Σ = ∑!75 𝜆! ( ∑!75 𝜆! ( を定義する. 定義3:有効ランク 20
n 任意の𝜎, に対して,以下が成立するような𝑏, 𝑐, 𝑐* > 0が存在する. n 定義1の線形回帰モデルを考える.ここで, 𝑘∗
= min{𝑘 ≥ 0: 𝑟5 Σ ≥ 𝑏𝑛} を定義する.空集合のミニマムは∞とする. n 𝛿 < 1でlog * 8 < 𝑛/𝑐であるとする.𝑘∗ ≥ 𝑛/𝑐* であるならば,𝔼 𝑅 4 𝜃 ≥ 𝜎(/𝑐である. 定理1 21
n さもなければ,少なくとも確率1 − 𝛿で, 𝑅 4 𝜃 ≤ 𝑐 𝜃∗
( Σ max 𝑟9 Σ 𝑛 , 𝑟9 Σ 𝑛 , log 1 𝛿 𝑛 +𝑐 log 1 𝛿 𝜎- ( 𝑘∗ 𝑛 + 𝑛 𝑅5∗ Σ であり, 𝔼 𝑅 4 𝜃 ≥ 𝜎( 𝑐 𝑘∗ 𝑛 + 𝑛 𝑅5∗ Σ である. 定理1 22
n さらに,以下を満たすような定数𝑎*, 𝑎(, 𝑛9 が存在する. n 全ての𝑛 ≥ 𝑛9 と,すべての𝑡
≥ 0に対して,以下を満たす 𝜃∗ = 𝑡である𝜃∗ が存在する. n 𝑥 ∼ 𝒩(0, Σ)と𝑦|𝑥 ∼ 𝒩(𝑥'𝜃∗, 𝜃∗ ( Σ )に対し,少なくとも1/4の確率で, 𝑅 4 𝜃 ≥ 1 𝑎* 𝜃∗ (1 𝑟9 Σ 𝑛 log 1 + 𝑟9 Σ ≥ 𝑎( . ここで, Σ はΣの作用素ノルム. 定理1 23
n 上限: 少なくとも確率1 − 𝛿で, 𝑅 𝜃 ≤ 𝑐 𝜃∗
" Σ max 𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ • バイアス項: 𝜃∗ " Σ max &" ' ( , &" ' ( , )*+ # $ ( • 分散項: 𝑐 log , - 𝜎$ " %∗ ( + ( .%∗ ' n 下限: 𝔼 𝑅 5 𝜃 ≥ 𝜎" 𝑐 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ 定理1のまとめ 24
n 定理1で示された上限について考える. 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ n 1つ目の項: • 問題の規模(Σの固有値の総和𝑟9 Σ )がサンプルサイズ𝑛に比べて小さい 場合,𝜃∗から来ると見なせる 4 𝜃への寄与はあまり歪まないというもの. n 2つ目の項: • ラベルのノイズ𝜎- (が予測精度に与える影響を反映するもの • この有効ランクが大きいという必要十分条件は,有意なオーバーパラメタリ ゼーションの特性とみなすことができる. 定理1の解釈 25
n 定理1の, 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ は,最小ノルム推定量が最適に近い予測精度を持つためには, 1. 𝑟9(Σ)はサンプルサイズ𝑛と比べて小さくなるべきである; 2. 𝑅5∗(Σ)はサンプルサイズ𝑛と比べて大きくなるべきである; ことを示している. n この結果は,良性の過適合に対する以下の定義を導く. 定理1の解釈 26
n Σ. = 1であるような共分散の系列(Σ.)は, lim .→4 𝑟9(Σ.) 𝑛 = lim
.→4 𝑘. ∗ 𝑛 = lim .→4 𝑛 𝑅5/ ∗ (Σ.) = 0 であるときに良性である. 定義 27
例:良性の過適合のための条件 28
n 結果1(無限次元の例):固有値に対して, 𝜇5(Σ) = 𝑘;< ln;0 𝑘 + 1 𝑒
2 を仮定する.このとき,Σは良性である if and only if 𝛼 = 1かつ𝛽 > 1. 定理2(固有値に対する2つの例) 29
n 結果2(有限次元の例): • 固有値に対して, 𝜇5 Σ. = t 𝛾5 𝑖𝑓
𝑘 ≤ 𝑝. 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 ; • 𝛾5 = Θ(exp(−𝑘/𝜏)) であるならば, Σ. = 1であるようなΣ= は良性である if and only if 𝑝. = 𝜔(𝑛) かつ𝑛 exp(−𝑜(𝑛)) = 𝜖.𝑝. = 𝑜(𝑛). n さらに,𝑝. = Ω(𝑛)かつ𝜖.𝑝. = 𝑛 exp(−𝑜(𝑛))に対して, 𝑅 4 𝜃 = 𝑂 𝜖.𝑝. + 1 𝑛 + ln 𝑛 𝜖.𝑝. 𝑛 + max 1 𝑛 , 𝑛 𝑝. 定理2(固有値に対する2つの例) 30
n 結果1:無限次元のデータで共分散が固定されている場合, 共分散の固有値が特定の収束レートで減衰する場合に限り,良性の過適合 が起こることを示している. n 結果2:データが有限次元であり,共分散のノイズが同じ方向である場合に は,結果1の状況に加えて,以下の状況でも良性の過適合がおこる. • 共分散の固有値が, 1.
次元がサンプルサイズに比べて大きく, 2. 共分散の等方性成分がサンプルサイズに比べて十分に小さい(指数関数 的に小さくはない); 場合には良性の過適合が起こる. 定理2の解釈 31
n つまり,良好な過適合を可能にする固有値のパターンを調べると,「次元は 大きいがたかだか有限の場合」に興味深い役割があることがわかる. ↔ 無限次元の場合には,良好なオーバーフィッティングは,固有値の減衰率 が狭い範囲でしか起こらない. • 一方,サンプルサイズよりも,速く増大する次元を持つ有限次元の空間で は,より広い範囲で減衰する固有値列で良性の過適合は発生する. n
このように,線形回帰では, • 無限次元の空間にあるデータでは良性の過適合は難しいが, • 大きくても有限次元の空間にあるデータでは,より広い共分散の特性のも とで良性の過適合が起こる. 定理2の解釈 32
n これらの例は,超過リスク 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
𝒓𝟎 𝜮 𝒏 , 𝒓𝟎 𝜮 𝒏 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝒌∗ 𝒏 + 𝒏 𝑹𝒌∗ 𝜮 において, • 5 . + . >2 を小さくするために必要な固有値の減衰と, • ?3 @ . を小さくするために必要な固有値の減衰 の間の緊張関係を示している. n 補題1:𝑟5 Σ ≥ 1,𝑟5 ( Σ = 𝑟5 Σ( 𝑅5(Σ),かつ, 𝑟5 Σ( ≤ 𝑟5 Σ ≤ 𝑅5 Σ ≤ 𝑟5 ((Σ) 定理2の解釈 33