Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SIGNATE ソニーグループ合同データ分析コンペティション(for Recruiting)...
Search
Hiroki Yamaoka
June 23, 2022
Science
1
450
SIGNATE ソニーグループ合同データ分析コンペティション(for Recruiting) 3rd Place Solution
SIGNATE ソニーグループ合同データ分析コンペティション(for Recruiting)の表彰式での3位解法プレゼン資料です。
Hiroki Yamaoka
June 23, 2022
Tweet
Share
Other Decks in Science
See All in Science
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text
rudorudo11
0
120
学術講演会中央大学学員会府中支部
tagtag
0
310
Cross-Media Technologies, Information Science and Human-Information Interaction
signer
PRO
3
31k
風の力で振れ幅が大きくなる振り子!? 〜タコマナローズ橋はなぜ落ちたのか〜
syotasasaki593876
1
110
Transport information Geometry: Current and Future II
lwc2017
0
210
ランサムウェア対策にも考慮したVMware、Hyper-V、Azure、AWS間のリアルタイムレプリケーション「Zerto」を徹底解説
climbteam
0
140
データマイニング - コミュニティ発見
trycycle
PRO
0
160
KH Coderチュートリアル(スライド版)
koichih
1
48k
データベース01: データベースを使わない世界
trycycle
PRO
1
810
データマイニング - グラフ構造の諸指標
trycycle
PRO
0
200
AIに仕事を奪われる 最初の医師たちへ
ikora128
0
990
「美は世界を救う」を心理学で実証したい~クラファンを通じた新しい研究方法
jimpe_hitsuwari
1
170
Featured
See All Featured
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.1k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
Thoughts on Productivity
jonyablonski
70
4.9k
Reflections from 52 weeks, 52 projects
jeffersonlam
353
21k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
The Invisible Side of Design
smashingmag
302
51k
How STYLIGHT went responsive
nonsquared
100
5.8k
Why Our Code Smells
bkeepers
PRO
340
57k
The Cost Of JavaScript in 2023
addyosmani
55
9k
The Illustrated Children's Guide to Kubernetes
chrisshort
49
51k
Code Reviewing Like a Champion
maltzj
526
40k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
Transcript
SIGNATE ソニーグループ合同データ分析コンペティション(for Recruiting) 3rd Place Solution
⾃⼰紹介 Ø名前:yayaya Ø関⻄学院⼤学⼤学院 M2 Ø興味:データベース×機械学習(NLP) ØMLコンペが最近の趣味(Kaggle Amexに参戦中) twitter
今回の結果 n 実は5位で上位の失格or辞退で繰り上げ3位(賞品が実⽤的なヘッドフォンになって少し嬉しい) Private LBの順位
今回のコンペで難しいと感じた所 n 時系列データなのに、過去や未来の特徴量があまり効かない n 配布データの特徴量の種類が少ない(⼤気物質濃度+気象情報は実質9種) 以上を踏まえて今回上位に⾷い込むには… Øtargetであるpm25_midをリークをしないように時間的・空間的にうまく 集約することがキモのひとつだったと思います 空間
時間
使⽤したモデルとCV Strategy モデルは⼀貫してLightGBMを使⽤ n Model:LightGBM(seed averagingの結果を提出) n Split:GroupKfold(group=City, n_splits=10)
Ø StratifiedGroupKfold(label=Country,group=City,n_splits=10)でも良かった n CV:20.54 Public LB:20.06 Private LB:20.05
作成した特徴量 n target以外 Ø 配布データそのまま(カテゴリ変数はlabel encoding) Ø mid min
maxの同⼀特徴量内での差分(ex. 〇〇_mid - 〇〇_min) Ø 各特徴量のmidをSavitzky-Golay Filteringで平滑化した特徴量,さらに1次微分と2次微分のlag特徴量 Ø 各特徴量のzero or not Ø CityとCountry単位での観測地の数と観測回数(個⼈的推し) Ø co,no2,so2の内どれが最⼤かを表すカテゴリ変数 Ø City間の距離 n targetの集約 Ø 各Countryのpm25_midをdate,month,year単位で各種統計量に集約 Ø 各Cityからの距離がk近傍内にあるCityのpm25_midを各種統計量で集約 Ø 各Cityからの⼀定距離内にあるCityのpm25_midを各種統計量で集約 p targetの真値とtargetの予測値の差分の絶対値をlightgbmで予測し,その予測値を特徴量に 次スライドで⼀部をもう少し詳しく説明
⼀定範囲内のtargetを集約 ⼀定距離で集約 (100mile毎に1000mileまで) 近傍で集約 (4近傍から15近傍まで) n 空間的に近い都市は似たpm25_mid値であるはず(空間近接性) Ø 2種類の集約⽅法を採⽤
-> Private LBが約0.3改善
targetの差分予測特徴量の作成 真のpm25_mid pm25_midの予測値 予測 差分の絶対値 予測 差分の絶対値の予測値 Private LB
0.06改善 n 気持ち的にはpm25_midの外れ値度合いを表せる これによりtestにも 差分特徴量が作成できる
個⼈的推し特徴量 City&Country単位での観測地の数と観測回数(Private LBが約0.03改善) ① 国の経済活動が⼤きいと⼤気汚染が問題になりがち ② ⼤気汚染が問題になる国は環境問題を改善するために積極的に観測を⾏うはず ①はGDPや⼈⼝など外部データで考慮できるが、使わずに②も考慮できるのではないかと思い、 やってみたら実際少し改善したので個⼈的に⼀番テンション上がった
運営さんがデータを加⼯する段階で⼈為的に観測地や観測値を削除していた等の場合、仮説が成り⽴たず、 仮説通りに効いたかの真偽は不明…(効いたのでヨシ!!) 観測地マップ
Optunaによるハイパラ探索 n OptunaのLightGBMTunerCVで主要なハイパラを探索 num_leavesを⼤きくとるとかなり効いた (RMSEがPrivate LBで0.05改善)
今回改善に寄与しなかった取り組みの⼀部 ※あくまで⾃分の環境では効かなかっただけなので無駄という意味ではないです n ガウス過程回帰による空間上のtarget分布の推定 n kmeansで推定したクラスタでtargetを集約(空間類似性) n ⼀定範囲内のtarget以外の特徴量の集約 例:クラスタ数20でクラスタリング
Best Private Scoreの推移 コンペ初⽇4/13 rmse=20.85 6/1 rmse=20.04 約1ヶ⽉熟成 22
submissions 67submissions
反省点 n コンペ終了までTOP1~4位ぐらいまで圧倒的スコアだったので、 軽微な改善を後回しにしていたのが今回の敗因 ØStacking等のモデルアンサンブル Ø外れ値除去等の丁寧な前処理 最後まで何が起こるか分からないのでやれること些細なことでも 時間があるならやっておくべきという教訓を得た
最後に 競ってくれた参加者の⽅々と、⾯⽩いコンペの開催と 運営をしてくださったSignateの⽅々に感謝いたします。 ありがとうございました!!!