Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読んだ「Class Imbalance, Redux」
Search
Shinichi Takayanagi
June 14, 2018
Science
4
3.5k
論文読んだ「Class Imbalance, Redux」
Shinichi Takayanagi
June 14, 2018
Tweet
Share
More Decks by Shinichi Takayanagi
See All by Shinichi Takayanagi
バイブコーディングの正体——AIエージェントはソフトウェア開発を変えるか?
stakaya
5
1.1k
[NeurIPS 2023 論文読み会] Wasserstein Quantum Monte Carlo
stakaya
0
530
[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests
stakaya
2
1.9k
[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift
stakaya
0
2k
[情報検索/推薦 各社合同 論文読み祭 #1] KDD ‘20 "Embedding-based Retrieval in Facebook Search"
stakaya
2
620
【2020年新人研修資料】ナウでヤングなPython開発入門
stakaya
29
21k
論文読んだ「Simple and Deterministic Matrix Sketching」
stakaya
1
1.2k
Quick Introduction to Approximate Bayesian Computation (ABC) with R"
stakaya
3
350
The Road to Machine Learning Engineer from Data Scientist
stakaya
5
4.4k
Other Decks in Science
See All in Science
データから見る勝敗の法則 / The principle of victory discovered by science (open lecture in NSSU)
konakalab
1
140
Lean4による汎化誤差評価の形式化
milano0017
1
300
データマイニング - ノードの中心性
trycycle
PRO
0
270
知能とはなにかーヒトとAIのあいだー
tagtag
0
100
研究って何だっけ / What is Research?
ks91
PRO
1
120
04_石井クンツ昌子_お茶の水女子大学理事_副学長_D_I社会実現へ向けて.pdf
sip3ristex
0
610
データベース15: ビッグデータ時代のデータベース
trycycle
PRO
0
350
2025-06-11-ai_belgium
sofievl
1
150
Explanatory material
yuki1986
0
400
点群ライブラリPDALをGoogleColabにて実行する方法の紹介
kentaitakura
1
390
局所保存性・相似変換対称性を満たす機械学習モデルによる数値流体力学
yellowshippo
1
310
データベース08: 実体関連モデルとは?
trycycle
PRO
0
930
Featured
See All Featured
BBQ
matthewcrist
89
9.8k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
51
5.6k
Code Review Best Practice
trishagee
70
19k
Gamification - CAS2011
davidbonilla
81
5.4k
4 Signs Your Business is Dying
shpigford
184
22k
Practical Orchestrator
shlominoach
190
11k
Scaling GitHub
holman
463
140k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Producing Creativity
orderedlist
PRO
347
40k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
920
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
Transcript
Class Imbalance, Redux Byron C. Wallace, Kevin Small, Carla E.
Brodley, Thomas A. Trikalinos (ICDM 2011) 高柳慎一 @_stakaya 論文読んだ
本日のお持ち帰り • 不均衡クラス分類問題の理論が未確立(当時) • なので、確率論的な視点から問題を定式化 • “undersampling + bagging”が良い?という結論 –※undersampling
= balanced bootstrapで複数個レプリカ データ・セット生成 –論文中の表現:In almost all imbalanced scenarios, practitioners should bag classifiers induced over balanced bootstrap samples 2
準備 • 手元にある訓練データ – : から生成される”+”データ(Minority) – : から生成される”ー”データ(Majority) –“+”Classに属するデータ
が、”ー”Classに属する データ に比べ少ない • 2値クラス分類を考える 3
単純に分類した場合のBias 4 • 真の境界: • 推定された境界: • 直感的に左寄りになる • 部分特徴量空間:
• ※論文図1より
目的(損失)関数 • False Positive/Negativeの際の罰則: • Minority Class (“+”)の割合: • False
Positive/Negativeに対して罰を与える • 適当な”距離”じゃなくて、(経験分布として見 ると)個数になるのが理論のミソ何だと思う 5
目的(損失)関数 • False Positive/Negativeの際の罰則: • Minority Class (“+”)の割合: • その経験(実データ)版(個数で罰則)
6
よくある不均衡制御 • False Positive/Negativeの際の罰則: • この罰則を制御して目的関数をいい感じに • 所謂、”重みをつける”操作で対応 • これはあまり効果なし、特にデータが分離可能
な場合明らかに全く効果がない –これは目的関数の形の仮定から自明 –(これが言いたいために距離を使ってないのか?) 7
よくある不均衡制御(なんで駄目?) 8 • 赤矢印間で罰則C やωを変えても、 経験損失関数の値 は不変 • 意味がない •
※図1再掲
SMOTEについて • 不均衡データの調整によく使われる奴 • アルゴリズム –MinorityクラスのK近傍データをいくつか持ってきて –そのうちの1つをランダムに選んで、内挿して点を増やす • こいつはアルゴリズムとして内挿なので、 Minorityに属する点が外に拡大されて出ていくこ
とはない → さっきの図でいう”境界をMajor側に 向かわせる方向”に最適化はどのみち進まない 9
どうやるといいのだろうか? • Undersamplingを使お う –Majorityを減らす • 図からわかるようにバ イアスは明らかに減る • ただしωの分散が出る
• 論文図2より 10
どうやるといいのだろうか? • ωの分散をおさえるためにBaggingを使う • Baggingにおいて普通はBootstrap –完全Random選択 • 先行研究でもBalanceするように取ってるし、 いいだろ!わっはっは! 11
シミュレーション • 特徴量xは全部バイ ナリ変数 • 右側の箱は無意味 Featureの割合と データのSparse制御 • πyが不均衡比率
• 論文図3より 12
結果の図(論文図4) • F値 v.s. 次元 • 左から右にπy=5%, 10%, 20% •
次元があがるとデータが分割可になるので罰則付き 系の手法がパフォーマンス悪化 13
結果の図(論文図5) • F値 v.s. データサイズ • 左から右にπy=5%, 10%, 20% •
サンプルサイズが増えると、(境界を動かせるサン プルも増えるので)罰則付き系手法も精度良 14
結果の図(論文図6) 15 • 左・右:分離可・不可 なデータセットに対す るBase(SVM)から のF値向上具合 • 分離可なデータの場合 にはbaggingしか精度
向上ない
結果の図(論文図7) • 実データでも やった • Bagging強し • (あまり深く読 んでない…) 16