Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読んだ「Class Imbalance, Redux」
Search
Shinichi Takayanagi
June 14, 2018
Science
3.6k
4
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
論文読んだ「Class Imbalance, Redux」
Shinichi Takayanagi
June 14, 2018
More Decks by Shinichi Takayanagi
See All by Shinichi Takayanagi
論文紹介「Evaluation gaps in machine learning practice」と、効果検証入門に関する昔話
stakaya
0
1.2k
バイブコーディングの正体——AIエージェントはソフトウェア開発を変えるか?
stakaya
5
1.7k
[NeurIPS 2023 論文読み会] Wasserstein Quantum Monte Carlo
stakaya
0
600
[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests
stakaya
2
2k
[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift
stakaya
0
2.1k
[情報検索/推薦 各社合同 論文読み祭 #1] KDD ‘20 "Embedding-based Retrieval in Facebook Search"
stakaya
2
670
【2020年新人研修資料】ナウでヤングなPython開発入門
stakaya
28
22k
論文読んだ「Simple and Deterministic Matrix Sketching」
stakaya
1
1.3k
Quick Introduction to Approximate Bayesian Computation (ABC) with R"
stakaya
3
390
Other Decks in Science
See All in Science
(2025) Balade en cyclotomie
mansuy
0
620
機械学習 - SVM
trycycle
PRO
1
1.1k
Bリーグのショットデータを活用した得点期待値モデルの構築 / Construction of expected points model using shot data of B.LEAGUE
konakalab
0
140
なぜ21は素因数分解されないのか? - Shorのアルゴリズムの現在と壁
daimurat
0
450
機械学習 - K-means & 階層的クラスタリング
trycycle
PRO
0
1.6k
1. CPC理論の展開と集合的知能モデル(JSAI2026 KS-27 集合的予測符号化と新たな知性の時代)
hayashiyus884
1
180
生成AIの現状と展望
tagtag
PRO
0
130
How we plan to publish 1,000 bio-logging datasets to GBIF and OBIS
peterdesmet
0
100
主成分分析に基づく教師なし特徴抽出法を用いたコラーゲン-グリコサミノグリカンメッシュの遺伝子発現への影響
tagtag
PRO
0
270
Understanding CVP Waveforms: Interpretation and Clinical Implications in Anesthesiology
taka88
0
570
AIを用いた PID制御で部屋 の温度制御をしてみた
nearme_tech
PRO
0
140
生成AIと司法書士の未来.pdf
tagtag
PRO
0
120
Featured
See All Featured
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
Exploring anti-patterns in Rails
aemeredith
3
400
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
450
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
How STYLIGHT went responsive
nonsquared
100
6.2k
How to build a perfect <img>
jonoalderson
1
5.6k
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
190
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
Transcript
Class Imbalance, Redux Byron C. Wallace, Kevin Small, Carla E.
Brodley, Thomas A. Trikalinos (ICDM 2011) 高柳慎一 @_stakaya 論文読んだ
本日のお持ち帰り • 不均衡クラス分類問題の理論が未確立(当時) • なので、確率論的な視点から問題を定式化 • “undersampling + bagging”が良い?という結論 –※undersampling
= balanced bootstrapで複数個レプリカ データ・セット生成 –論文中の表現:In almost all imbalanced scenarios, practitioners should bag classifiers induced over balanced bootstrap samples 2
準備 • 手元にある訓練データ – : から生成される”+”データ(Minority) – : から生成される”ー”データ(Majority) –“+”Classに属するデータ
が、”ー”Classに属する データ に比べ少ない • 2値クラス分類を考える 3
単純に分類した場合のBias 4 • 真の境界: • 推定された境界: • 直感的に左寄りになる • 部分特徴量空間:
• ※論文図1より
目的(損失)関数 • False Positive/Negativeの際の罰則: • Minority Class (“+”)の割合: • False
Positive/Negativeに対して罰を与える • 適当な”距離”じゃなくて、(経験分布として見 ると)個数になるのが理論のミソ何だと思う 5
目的(損失)関数 • False Positive/Negativeの際の罰則: • Minority Class (“+”)の割合: • その経験(実データ)版(個数で罰則)
6
よくある不均衡制御 • False Positive/Negativeの際の罰則: • この罰則を制御して目的関数をいい感じに • 所謂、”重みをつける”操作で対応 • これはあまり効果なし、特にデータが分離可能
な場合明らかに全く効果がない –これは目的関数の形の仮定から自明 –(これが言いたいために距離を使ってないのか?) 7
よくある不均衡制御(なんで駄目?) 8 • 赤矢印間で罰則C やωを変えても、 経験損失関数の値 は不変 • 意味がない •
※図1再掲
SMOTEについて • 不均衡データの調整によく使われる奴 • アルゴリズム –MinorityクラスのK近傍データをいくつか持ってきて –そのうちの1つをランダムに選んで、内挿して点を増やす • こいつはアルゴリズムとして内挿なので、 Minorityに属する点が外に拡大されて出ていくこ
とはない → さっきの図でいう”境界をMajor側に 向かわせる方向”に最適化はどのみち進まない 9
どうやるといいのだろうか? • Undersamplingを使お う –Majorityを減らす • 図からわかるようにバ イアスは明らかに減る • ただしωの分散が出る
• 論文図2より 10
どうやるといいのだろうか? • ωの分散をおさえるためにBaggingを使う • Baggingにおいて普通はBootstrap –完全Random選択 • 先行研究でもBalanceするように取ってるし、 いいだろ!わっはっは! 11
シミュレーション • 特徴量xは全部バイ ナリ変数 • 右側の箱は無意味 Featureの割合と データのSparse制御 • πyが不均衡比率
• 論文図3より 12
結果の図(論文図4) • F値 v.s. 次元 • 左から右にπy=5%, 10%, 20% •
次元があがるとデータが分割可になるので罰則付き 系の手法がパフォーマンス悪化 13
結果の図(論文図5) • F値 v.s. データサイズ • 左から右にπy=5%, 10%, 20% •
サンプルサイズが増えると、(境界を動かせるサン プルも増えるので)罰則付き系手法も精度良 14
結果の図(論文図6) 15 • 左・右:分離可・不可 なデータセットに対す るBase(SVM)から のF値向上具合 • 分離可なデータの場合 にはbaggingしか精度
向上ない
結果の図(論文図7) • 実データでも やった • Bagging強し • (あまり深く読 んでない…) 16