Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
良性の過適合
Search
MasaKat0
August 31, 2021
Research
1
910
良性の過適合
良性の過適合
MasaKat0
August 31, 2021
Tweet
Share
More Decks by MasaKat0
See All by MasaKat0
Adaptive Policy Learning
masakat0
0
20
Active Adaptive Experimental Design for Treatment Effect Estimation with Covariate Choices
masakat0
0
250
Analysis of the Temporal Structure in Economic Condition Assessments
masakat0
0
83
最適腕識別@連合大会
masakat0
0
310
Mean-Variance RL (JAFEE 2023)
masakat0
1
540
Synthetic Control Methods through Predictive Synthesis
masakat0
0
320
Synthetic Control Method(合成コントロール法)1
masakat0
1
5.3k
Score-Based Generative Modelingthrough Stochastic Differential Equation
masakat0
0
1.4k
Optimal Best Arm Identification with a Fixed Budget under a Small Gap
masakat0
0
220
Other Decks in Research
See All in Research
[輪講] Transformer Layers as Painters
nk35jk
4
580
尺度開発における質的研究アプローチ(自主企画シンポジウム7:認知行動療法における尺度開発のこれから)
litalicolab
0
390
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
220
第79回 産総研人工知能セミナー 発表資料
agiats
3
190
渋谷Well-beingアンケート調査結果
shibuyasmartcityassociation
0
370
Weekly AI Agents News! 12月号 プロダクト/ニュースのアーカイブ
masatoto
0
240
Weekly AI Agents News!
masatoto
30
45k
PostgreSQLにおける分散トレーシングの現在 - 第50回PostgreSQLアンカンファレンス
seinoyu
0
190
文献紹介:A Multidimensional Framework for Evaluating Lexical Semantic Change with Social Science Applications
a1da4
1
250
言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)
yukiar
4
1k
Optimal and Diffusion Transports in Machine Learning
gpeyre
0
790
文書画像のデータ化における VLM活用 / Use of VLM in document image data conversion
sansan_randd
2
410
Featured
See All Featured
Being A Developer After 40
akosma
89
590k
Six Lessons from altMBA
skipperchong
27
3.6k
jQuery: Nuts, Bolts and Bling
dougneiner
62
7.6k
Code Review Best Practice
trishagee
65
17k
Unsuck your backbone
ammeep
669
57k
How to train your dragon (web standard)
notwaldorf
89
5.8k
Adopting Sorbet at Scale
ufuk
74
9.2k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
GitHub's CSS Performance
jonrohan
1030
460k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Transcript
計量経済学・機械学習ゼミ 統計的学習理論 第N回 良性の過適合 AI事業本部 AdEconチーム 加藤真大 1
Bartlett. Long, Lugosi, and Tsigler. Benign overfitting in linear regression
n 問題意識: • サンプルサイズよりもパラメータの数が多いような,オーバーパラメトライズ された回帰モデルがなぜ予測において良い性能を発揮するのか. • 古典的な学習理論で指摘される予測性能とモデル複雑どのトレードオフ, 深層学習では発生していない? • むしろモデルを複雑にすればするほど予測性能が上がる? n 実務には役立たないかもしれない. n 深層学習の理論のホットなトピックを紹介. 概要 2
n 結果: • 線形回帰モデルに対して限定して考える. • サンプルサイズよりもパラメータの数が多いような回帰モデルが,どのよう な条件のもとで良い予測性能を持つようになるのかを考えた. • 予測性能が共変量の共分散の固有値によって特徴づけられる. •
共分散の固有値を降順に並べた時に,遅すぎず早すぎない速度で0に収 束する時,良性の過適合が発生する. 概要 3
予測誤差とモデルの複雑さ 4
n 良性の過適合(Benign overfitting): • 深層学習の方法論によって明らかにされた重要な謎の1つ. • サンプルサイズに対してパラメータの数が多い状況でも予測がうまくいく. n 深層ニューラルネットワークは,回帰モデル𝑌! =
𝑓 𝑋! + 𝜀! の誤差項𝜀! の 大きい訓練データに過適合しても,テストデータに対してうまく予測できる. 概要 5
n 統計的学習理論における古典的な視点: • 訓練データへの適合性と予測ルールの複雑さの間にトレードオフがある. • モデルの複雑さが,パラメータの数・高次元設定における非ゼロパラメータ の数・最近傍推定器で平均化された近いサンプルの数・再生カーネルヒル ベルト空間における推定値のスケール・カーネル平滑化のバンド幅などで 測定されるかどうかに関わらず,このトレードオフは統計的学習理論にお いて普遍的に存在してきた.
• 深層学習では,この種の結果が参考にならない可能性が指摘されている. 古典的な視点 6
n 統計学や機械学習の教科書では,すべての学習例に完全にフィットする推 定値は,オーバーフィットの例として紹介されることが多い. n 深層学習手法の成功を科学的に理解するためには,学習データに完全に フィットする予測ルールの性能を理解することが必要である. 古典的な視点 7
• リスク𝑅 𝑓 • 経験リスク ) 𝑅 𝑓 • 仮説集合ℋ
• (可測な)関数の集合全体ℱ • 𝑓∗ = arg min #∈ℱ 𝑅(𝑓) • 𝑓ℋ ∗ = arg min #∈ℋ 𝑅(𝑓) • 4 𝑓 = arg min #∈ℋ ) 𝑅(𝑓) 古典的な汎化誤差解析の例 8
n 関数𝑓の超過リスク𝑅 𝑓∗ − 𝑅(𝑓) n 学習されたモデル 4 𝑓の超過リスクの分解 𝑅
4 𝑓 − 𝑅 𝑓∗ = 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ + 𝑅 𝑓ℋ ∗ − 𝑅 𝑓∗ . • 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ :推定誤差 • 𝑅 𝑓ℋ ∗ − 𝑅 𝑓∗ :近似誤差(モデルの語特定に由来する) n 推定誤差を抑える. 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ ≤ ) 𝑅 𝑓ℋ ∗ − ) 𝑅 4 𝑓 + 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ ≤ 2 sup #∈ℋ |𝑅 𝑓 − ) 𝑅 𝑓 | • sup #∈ℋ |𝑅 𝑓 − ) 𝑅 𝑓 |はモデルの集合ℋが複雑になるほど大きくなる. • モデルが複雑になるほどバウンドがゆるくなるが,深層学習は逆. 古典的な汎化誤差解析の例 9
線形回帰モデルにおける 良性の過適合 10
n Benign overfittingの論文では,最も単純な設定である線形回帰を考える. n 線形回帰:二次損失と線形予測ルール. n 無限次元の空間(分離可能なヒルベルト空間)のデータを考える. n パラメータ空間の次元は、完全な適合(予測)ができると保証されるほど大 きいことを仮定する.
• 特殊なケースとして有限次元の部分空間にも結果が適用される. n 期待二次損失を最小にする理想的なパラメータ(回帰モデルの真値,サン プルが無限に与えられた時の最小二乗解)を𝜃∗とする. n オーバーパラメトライズしてデータに過適合させるとき,𝜃∗のもとでの予測 精度に近づけるのはいつなのかを考える. 線形回帰モデルにおける過適合 11
n ヒルベルト空間ℍにおける線形回帰モデルは共変量ベクトル𝑥 ∈ ℍと出力 𝑦 ∈ ℝによって定義される.ここで, 定義1.共分散オペレータΣ = 𝔼
𝑥𝑥' と, 定義2.𝔼 𝑦 − 𝑥'𝜃∗ ( = min ) 𝔼 𝑦 − 𝑥'𝜃 ( を満たすように,最適パラメータ ベクトル𝜃∗ ∈ ℍを定義する. 定義1:線形回帰 12
n 以下を仮定する: 仮定1.𝑥と𝑦の平均はゼロ; 仮定2.𝑥 = 𝑉Λ*/(𝑧.ここで, 𝑉ΛはΣ = 𝑉Λ𝑉'はΣの特異値分解から与えられ る.𝑧は,正の定数𝜎,
(と任意の𝜆 ∈ ℝに対して, 𝔼 exp 𝜆'𝑧 ≤ exp(𝜎, ( 𝜆 (/2) を満たす. ⋅ はヒルベルト空間ℍ上のノルム. 仮定3.誤差項の条件付き分散は正の定数𝜎(によって, 𝔼 𝑦 − 𝑥'𝜃∗ ( 𝑥] ≥ 𝜎( として下から抑えられる. 定義1:線形回帰 13
仮定4.𝑦 − 𝑥'𝜃∗は,正の定数𝜎- (と任意の𝜆 ∈ ℝに対し,𝑥で条件づけたとき, 𝔼 exp 𝜆'(𝑦 −
𝑥'𝜃∗) | 𝑥 ≤ exp(𝜎- (𝜆(/2) を満たす. 仮定5.ほとんど確実に,データ𝑋から,Σの任意の固有値に対して直交する空 間への射影は,次元𝑛の空間を張る. 定義1:線形回帰 14
n サンプルサイズよりもパラメータの数が多い場合を考える. → 解が複数存在する可能性がある. n 解を定めるため,学習サンプルに対して完全な予測を与える全てのベクト ルの中で,最小のノルムを持つパラメータ・ベクトル 4 𝜃を選択する. •
これは,正規方程式を解くために擬似逆行列を使用することに対応する. オーバーパラメトライズの問題 15
n ユーリッドノルムとヒルベルト空間のノルムをともに ⋅ であらわす. n データ𝑋 ∈ ℍ.と𝑦 ∈ ℝ.を所与として,最小ノルム推定量
4 𝜃は min )∈ℍ 𝜃 ( such that 𝑋𝜃 − 𝑦 ( = min 0 𝑋𝛽 − 𝑦 ( の解として定義される.この解は, 4 𝜃 = arg min ) 𝜃 (: 𝑋'𝑋𝜃 = 𝑋'𝑦 = 𝑋'𝑋 1 𝑋'𝑦 = 𝑋' 𝑋'𝑋 1𝑦 となる.ここで, 𝑋'𝑋 1は有界な線形作用素の擬似逆行列である. 定義2:最小ノルム推定量 16
超過リスクの解析 17
• Σの固有値を𝜇* Σ ≥ 𝜇( Σ ≥ ⋯と降順で表記する. • Σの作用素ノルムを
Σ と表記する. • ℍ上の恒等作用素を𝐼と表記する. • 𝑛×𝑛の単位行列を𝐼. と表記する. 表記 18
n 予測性能の解析のために超過リスクを定義する. n iidな訓練サンプル 𝑥*, 𝑦* , … , 𝑥.,
𝑦. とパラメータ𝜃 ∈ ℍの推定値 を所与として,線形回帰モデルにおける超過リスク(excess risk)は 𝑅 𝜃 ≔ 𝔼,,- 𝑌! − 𝑋! '𝜃 ( − 𝑌! − 𝑋! '𝜃∗ ( として定義される. n 𝜃に最小ノルム推定量を用いる場合の,𝑅(𝜃)の下限と上限を求める. 超過リスク 19
n Σ = 𝔼[𝑥𝑥'] の固有値の観点から定義される共分散の有効ランクを用いる. n Σの固有値を𝜇* Σ ≥ 𝜇(
Σ ≥ ⋯と降順で表記する. n 𝜆! = 𝜇! Σ (𝑖 = 1,2, … )を定義する. n 𝑘 ≥ 0に対して,∑!3* 4 𝜆! < ∞かつ𝜆56* > 0であるとき, 𝑟5 Σ = ∑!75 𝜆! 𝜆56* , 𝑅5 Σ = ∑!75 𝜆! ( ∑!75 𝜆! ( を定義する. 定義3:有効ランク 20
n 任意の𝜎, に対して,以下が成立するような𝑏, 𝑐, 𝑐* > 0が存在する. n 定義1の線形回帰モデルを考える.ここで, 𝑘∗
= min{𝑘 ≥ 0: 𝑟5 Σ ≥ 𝑏𝑛} を定義する.空集合のミニマムは∞とする. n 𝛿 < 1でlog * 8 < 𝑛/𝑐であるとする.𝑘∗ ≥ 𝑛/𝑐* であるならば,𝔼 𝑅 4 𝜃 ≥ 𝜎(/𝑐である. 定理1 21
n さもなければ,少なくとも確率1 − 𝛿で, 𝑅 4 𝜃 ≤ 𝑐 𝜃∗
( Σ max 𝑟9 Σ 𝑛 , 𝑟9 Σ 𝑛 , log 1 𝛿 𝑛 +𝑐 log 1 𝛿 𝜎- ( 𝑘∗ 𝑛 + 𝑛 𝑅5∗ Σ であり, 𝔼 𝑅 4 𝜃 ≥ 𝜎( 𝑐 𝑘∗ 𝑛 + 𝑛 𝑅5∗ Σ である. 定理1 22
n さらに,以下を満たすような定数𝑎*, 𝑎(, 𝑛9 が存在する. n 全ての𝑛 ≥ 𝑛9 と,すべての𝑡
≥ 0に対して,以下を満たす 𝜃∗ = 𝑡である𝜃∗ が存在する. n 𝑥 ∼ 𝒩(0, Σ)と𝑦|𝑥 ∼ 𝒩(𝑥'𝜃∗, 𝜃∗ ( Σ )に対し,少なくとも1/4の確率で, 𝑅 4 𝜃 ≥ 1 𝑎* 𝜃∗ (1 𝑟9 Σ 𝑛 log 1 + 𝑟9 Σ ≥ 𝑎( . ここで, Σ はΣの作用素ノルム. 定理1 23
n 上限: 少なくとも確率1 − 𝛿で, 𝑅 𝜃 ≤ 𝑐 𝜃∗
" Σ max 𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ • バイアス項: 𝜃∗ " Σ max &" ' ( , &" ' ( , )*+ # $ ( • 分散項: 𝑐 log , - 𝜎$ " %∗ ( + ( .%∗ ' n 下限: 𝔼 𝑅 5 𝜃 ≥ 𝜎" 𝑐 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ 定理1のまとめ 24
n 定理1で示された上限について考える. 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ n 1つ目の項: • 問題の規模(Σの固有値の総和𝑟9 Σ )がサンプルサイズ𝑛に比べて小さい 場合,𝜃∗から来ると見なせる 4 𝜃への寄与はあまり歪まないというもの. n 2つ目の項: • ラベルのノイズ𝜎- (が予測精度に与える影響を反映するもの • この有効ランクが大きいという必要十分条件は,有意なオーバーパラメタリ ゼーションの特性とみなすことができる. 定理1の解釈 25
n 定理1の, 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ は,最小ノルム推定量が最適に近い予測精度を持つためには, 1. 𝑟9(Σ)はサンプルサイズ𝑛と比べて小さくなるべきである; 2. 𝑅5∗(Σ)はサンプルサイズ𝑛と比べて大きくなるべきである; ことを示している. n この結果は,良性の過適合に対する以下の定義を導く. 定理1の解釈 26
n Σ. = 1であるような共分散の系列(Σ.)は, lim .→4 𝑟9(Σ.) 𝑛 = lim
.→4 𝑘. ∗ 𝑛 = lim .→4 𝑛 𝑅5/ ∗ (Σ.) = 0 であるときに良性である. 定義 27
例:良性の過適合のための条件 28
n 結果1(無限次元の例):固有値に対して, 𝜇5(Σ) = 𝑘;< ln;0 𝑘 + 1 𝑒
2 を仮定する.このとき,Σは良性である if and only if 𝛼 = 1かつ𝛽 > 1. 定理2(固有値に対する2つの例) 29
n 結果2(有限次元の例): • 固有値に対して, 𝜇5 Σ. = t 𝛾5 𝑖𝑓
𝑘 ≤ 𝑝. 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 ; • 𝛾5 = Θ(exp(−𝑘/𝜏)) であるならば, Σ. = 1であるようなΣ= は良性である if and only if 𝑝. = 𝜔(𝑛) かつ𝑛 exp(−𝑜(𝑛)) = 𝜖.𝑝. = 𝑜(𝑛). n さらに,𝑝. = Ω(𝑛)かつ𝜖.𝑝. = 𝑛 exp(−𝑜(𝑛))に対して, 𝑅 4 𝜃 = 𝑂 𝜖.𝑝. + 1 𝑛 + ln 𝑛 𝜖.𝑝. 𝑛 + max 1 𝑛 , 𝑛 𝑝. 定理2(固有値に対する2つの例) 30
n 結果1:無限次元のデータで共分散が固定されている場合, 共分散の固有値が特定の収束レートで減衰する場合に限り,良性の過適合 が起こることを示している. n 結果2:データが有限次元であり,共分散のノイズが同じ方向である場合に は,結果1の状況に加えて,以下の状況でも良性の過適合がおこる. • 共分散の固有値が, 1.
次元がサンプルサイズに比べて大きく, 2. 共分散の等方性成分がサンプルサイズに比べて十分に小さい(指数関数 的に小さくはない); 場合には良性の過適合が起こる. 定理2の解釈 31
n つまり,良好な過適合を可能にする固有値のパターンを調べると,「次元は 大きいがたかだか有限の場合」に興味深い役割があることがわかる. ↔ 無限次元の場合には,良好なオーバーフィッティングは,固有値の減衰率 が狭い範囲でしか起こらない. • 一方,サンプルサイズよりも,速く増大する次元を持つ有限次元の空間で は,より広い範囲で減衰する固有値列で良性の過適合は発生する. n
このように,線形回帰では, • 無限次元の空間にあるデータでは良性の過適合は難しいが, • 大きくても有限次元の空間にあるデータでは,より広い共分散の特性のも とで良性の過適合が起こる. 定理2の解釈 32
n これらの例は,超過リスク 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
𝒓𝟎 𝜮 𝒏 , 𝒓𝟎 𝜮 𝒏 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝒌∗ 𝒏 + 𝒏 𝑹𝒌∗ 𝜮 において, • 5 . + . >2 を小さくするために必要な固有値の減衰と, • ?3 @ . を小さくするために必要な固有値の減衰 の間の緊張関係を示している. n 補題1:𝑟5 Σ ≥ 1,𝑟5 ( Σ = 𝑟5 Σ( 𝑅5(Σ),かつ, 𝑟5 Σ( ≤ 𝑟5 Σ ≤ 𝑅5 Σ ≤ 𝑟5 ((Σ) 定理2の解釈 33