Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SIGNATE  ソニーグループ合同データ分析コンペティション(for Recruiting)...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

SIGNATE  ソニーグループ合同データ分析コンペティション(for Recruiting)  3rd Place Solution

SIGNATE  ソニーグループ合同データ分析コンペティション(for Recruiting)の表彰式での3位解法プレゼン資料です。

Avatar for Hiroki Yamaoka

Hiroki Yamaoka

June 23, 2022
Tweet

Other Decks in Science

Transcript

  1. 使⽤したモデルとCV Strategy  モデルは⼀貫してLightGBMを使⽤ n Model:LightGBM(seed averagingの結果を提出) n Split:GroupKfold(group=City, n_splits=10)

    Ø StratifiedGroupKfold(label=Country,group=City,n_splits=10)でも良かった n CV:20.54 Public LB:20.06 Private LB:20.05
  2. 作成した特徴量  n target以外 Ø 配布データそのまま(カテゴリ変数はlabel encoding) Ø mid min

    maxの同⼀特徴量内での差分(ex. 〇〇_mid - 〇〇_min) Ø 各特徴量のmidをSavitzky-Golay Filteringで平滑化した特徴量,さらに1次微分と2次微分のlag特徴量 Ø 各特徴量のzero or not Ø CityとCountry単位での観測地の数と観測回数(個⼈的推し) Ø co,no2,so2の内どれが最⼤かを表すカテゴリ変数 Ø City間の距離 n targetの集約 Ø 各Countryのpm25_midをdate,month,year単位で各種統計量に集約 Ø 各Cityからの距離がk近傍内にあるCityのpm25_midを各種統計量で集約 Ø 各Cityからの⼀定距離内にあるCityのpm25_midを各種統計量で集約 p targetの真値とtargetの予測値の差分の絶対値をlightgbmで予測し,その予測値を特徴量に 次スライドで⼀部をもう少し詳しく説明
  3. targetの差分予測特徴量の作成  真のpm25_mid pm25_midの予測値 予測 差分の絶対値 予測 差分の絶対値の予測値 Private LB

    0.06改善 n 気持ち的にはpm25_midの外れ値度合いを表せる これによりtestにも 差分特徴量が作成できる