Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的学習の基礎読書会「8章:Model Inference and Averaging (8.4まで)」
Search
Shinichi Takayanagi
October 14, 2016
Technology
0
1.1k
統計的学習の基礎読書会「8章:Model Inference and Averaging (8.4まで)」
Shinichi Takayanagi
October 14, 2016
Tweet
Share
More Decks by Shinichi Takayanagi
See All by Shinichi Takayanagi
[NeurIPS 2023 論文読み会] Wasserstein Quantum Monte Carlo
stakaya
0
390
[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests
stakaya
2
1.8k
[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift
stakaya
0
1.9k
[情報検索/推薦 各社合同 論文読み祭 #1] KDD ‘20 "Embedding-based Retrieval in Facebook Search"
stakaya
2
520
【2020年新人研修資料】ナウでヤングなPython開発入門
stakaya
28
20k
論文読んだ「Simple and Deterministic Matrix Sketching」
stakaya
1
970
Quick Introduction to Approximate Bayesian Computation (ABC) with R"
stakaya
3
260
The Road to Machine Learning Engineer from Data Scientist
stakaya
5
4k
論文読んだ「Winner’s Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments」
stakaya
1
4.5k
Other Decks in Technology
See All in Technology
What is DRE? - Road to SRE NEXT@広島
chanyou0311
3
630
データ分析基盤を作ってみよう~設計編~
nrinetcom
PRO
1
110
[NIKKEI Tech Talk] KDDI/KAG Scrum & Community for Engineering Training
curanosuke
2
220
年間一億円削減した時系列データベースのアーキテクチャ改善~不確実性の高いプロジェクトへの挑戦~
lycorptech_jp
PRO
3
2.9k
ギークの理想が7つ集まるエムスリーで夢を叶えよう - エムスリー株式会社
m3_engineering
1
260
OSSコミットしてZennの課題を解決した話
dyoshikawa1993
0
150
CTOから見た事業開発とプロダクト開発 / My Perspective on Business and Product Development as CTO
keisuke69
4
960
頼られるのが大好きな 皆さんへ - 支援相手との期待の合わせ方、突き放し方 -/For_people_who_like_to_be_relied_on
naitosatoshi
1
290
RAGのサービスをリリースして1年3ヶ月が経ちました
segavvy
4
910
サービスの持続的な成長と技術負債について
siva_official
PRO
10
4.4k
Datadog Cloud SIEMを使ってAWS環境の脅威を可視化した話/lifeistech-datadog-cloud-siem
gidajun
0
480
目標設定は好きですか? アジャイルとともに目標と向き合い続ける方法 / Do you like target Management?
kakehashi
10
3k
Featured
See All Featured
A designer walks into a library…
pauljervisheath
201
24k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
325
21k
Put a Button on it: Removing Barriers to Going Fast.
kastner
58
3.3k
The Cult of Friendly URLs
andyhume
75
5.9k
GitHub's CSS Performance
jonrohan
1026
450k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
17
8.7k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
121
18k
Pencils Down: Stop Designing & Start Developing
hursman
118
11k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
26
1.8k
Creatively Recalculating Your Daily Design Routine
revolveconf
214
11k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
149
45k
For a Future-Friendly Web
brad_frost
173
9.2k
Transcript
統計的学習の基礎読書会 第8回 8章:Model Inference and Averaging 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部 高柳慎一
(C)Recruit Communications Co., Ltd. 8.1 Introduction • 最小二乗やクロスエントロピーを用いてモデルの フィッティングを行ってきた •
この裏には“最尤推定”の考え方がある • (7章でやった)ブートストラップを最尤推定・ベイズ推 定の枠組みで見ていく • 最後に、モデルアベレージング系の技法(bagging, stacking, bumping)を見ていく 1
(C)Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood
Methods • 8.2.1 A Smoothing Example • ブートストラップ法 – データのデータによる(データのための?)不確実性評価 • 一次元でのスムージングを例に紹介 • また、最尤推定との関連も紹介 2
(C)Recruit Communications Co., Ltd. データ・Bスプライン基底関数(使用例) 3 データ点数N=50 の適当なデータ
(C)Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood
Methods • 条件設定など – データ全体: – 各データ: – 3次スプライン基底関数での展開: – Hをij成分にh_{j}(x_{i})のある行列だとして、最小二乗法 でβを計算してやると(単回帰と同様) 4
(C)Recruit Communications Co., Ltd. 回帰係数の推定値のばらつき • 推定した回帰係数βは確率変数なので、推定誤差有 • 誤差は以下のように計算される –
考え方は単回帰分析のときと同じ 5
(C)Recruit Communications Co., Ltd. それに伴う予測値のばらつき • Bスプライン基底関数ベクトル • 予測値: •
係数のばらつきによる予測値のばらつき 6
(C)Recruit Communications Co., Ltd. …の話をブートストラップでもやる • 手順 – 以下をB=200回繰り返す •
重複ありで50個データを(一様に)リサンプリングする • そのデータで予測値μ(x)を出す – 予測値の上下2.5%番目にあるデータを95%信頼幅の推定 値とする 7
(C)Recruit Communications Co., Ltd. 8 推定誤差範囲 ブートストラップで計算した Bスプライン平滑化(10個) Bスプライン平滑化 ブートストラップ
で計算した 95%信頼区間
(C)Recruit Communications Co., Ltd. 最小二乗とブートストラップと最尤推定の関係 • モデルのエラーがガウシアンになると仮定する – 意味は…よしなに理解 9
(C)Recruit Communications Co., Ltd. ノンパラメトリック&パラメトリック・ブートストラップ • ノンパラメトリック・ブートストラップ – 上述のやり方 –
モデルに対し、何も仮定などしていない(mode-free) • パラメトリック・ブートストラップ – モデルを仮定するの必要有 – B回以下の操作を繰り返す • 要するに予測結果に直接ノイズを加える 10
(C)Recruit Communications Co., Ltd. パラメトリック・ブートストラップと最小二乗法の関係 • B→∞の極限で、パラメトリック・ブートストラッ プの結果と最小二乗法の結果が一致 • すなわち、予測値の分布が下記のように与えられる
11
(C)Recruit Communications Co., Ltd. 8.2.2 Maximum Likelihood Inference • ノンパラメトリック・ブートストラップが最小二乗
法と一致するのを見た、が、ガウシアンエラーの仮 定をおいていた • 一般には最小二乗ではなく、最尤推定と一致するこ とをここで見る 12
(C)Recruit Communications Co., Ltd. 準備 • 確率変数Zの従う確率分布を定義 • 確率変数Zのパラメトリック・モデルと呼ぶ •
例:ガウシアンの場合: 13
(C)Recruit Communications Co., Ltd. 尤度関数 • 尤度関数(θの関数だと読む) • そのlogを取ったもの •
この関数を最大にするようなθが最尤推定値 14
(C)Recruit Communications Co., Ltd. スコア関数・情報量行列 • スコア関数 – ドットはθ微分を表す –
コレが最尤推定で0になると仮定する • 情報量行列 15
(C)Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量(or 期待情報量) • N→∞での推定量の真の値θ0への収束度合いを決め
る 16
(C)Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量だと期待値計算しないといけな いので、最尤推定値でエイヤ!と近似して評価 • 標準正規分布の1-αパーセンタイル点をz^(1-α)とし
て、以下のように区間ステイをおこなう 17
(C)Recruit Communications Co., Ltd. 例:Bスプラインのスムージング • 対数尤度関数: • 尤度関数のパラメータ での微分が0になる
条件 をおくと下記のようになる 18
(C)Recruit Communications Co., Ltd. 8.2.3 Bootstrap versus Maximum Likelihood •
ブートストラップは定式化なしに使用することができ るのが利点 • Bスプラインにおけるノットの位置は所与としていたが、 実際にはなんらかの方法で決める必要がある – 標準誤差などの解析解は、ここまで加味した解析計算は無理 – ブートストラップなら定式化がいらないので実行できる 19
(C)Recruit Communications Co., Ltd. 8.3 Bayesian Methods • パラメータの事後分布 •
予測分布 – ベイズ推定: – 最尤推定 : 20
(C)Recruit Communications Co., Ltd. 例:Bスプラインに対するベイズ推定 • 予測値自体の事前分布ではなく、係数βの事前分布 を考える: – パラメータτ・Σの選び方はよしなに
– (ココに対象に対する事前知識を入れる) • 予測値の分散共分散行列は 21
(C)Recruit Communications Co., Ltd. Βの事前分布から生成されるµの事前分布 22 個々の緑線が 事前分布からの サンプリングに 対応
(C)Recruit Communications Co., Ltd. βの事後確率分布 • 以下の平均・分散を持つガウシアン 23
(C)Recruit Communications Co., Ltd. 予測値µの(事後)確率分布 24 • 以下の平均・分散を持つガウシアン
(C)Recruit Communications Co., Ltd. 事後分布からのサンプリング結果 25 こちらがブートスト ラップに近くなる (後述) 緑線:事後分布か
らの1サンプリング 紫線:事後平均
(C)Recruit Communications Co., Ltd. 8.4 Relationship Between the Bootstrap •
設定 – 標準正規分布からのデータ: – 事前分布: – 事後分布: • τ→∞: – これはパラメトリックブートストラップに同じ 26
(C)Recruit Communications Co., Ltd. 何故こうなったのか? • 理由 1. 事前分布が無情報となる極限でθを選択 2.
データZの尤度 に対する影響は最尤推定量 を通してのみ(十分統計量の考え方に近い)。このこと から と書ける 3. かつ、尤度関数間に対称性がある 27
(C)Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 前述の考察はガウシアンについて成立するが、多項分 布についても近似的に成立 • これがベイズ推定の枠組みとノンパラメトリック・
ブートストラップの関係を示す • Lカテゴリからなる離散確率空間を考える • 各カテゴリの出る真の確率: • 各カテゴリの出る経験確率: 28
(C)Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 事全分布: ∝ • 事後分布:
• ブートストラップ計算: • 関数系としては非常に似ている – (※ a → 0 の極限) – 平均が同じで分散も係数だけが違う • ブートストラップは無事前情報分布に対応していると考えられる 29