CA x atmaCup 2nd, 5th Place Solution

CA × atmaCup 2nd 振り返り会 5th Place Solution ~チームマージ後の戦略を中⼼に~
チーム: pao++ (u++ & pao) 2020年12⽉10⽇ 1

チーム紹介 public 4位 -> private 5位 u++: https://twitter.com/upura0 pao: https://twitter.com/pppaaaooo
2

最終的なベストお互いの予測値の重み付き平均 u++: StratifiedKFoldで学習したLightGBM （public lb: 0.3015, 7位相当） pao: Timesplitで学習したLightGBM
（public lb: 0.2859, 13位相当） u++が使っている未来系特徴は最終⽇に近づくほど⽋損が増える/paoさんのモデルの⽅が最終⽇に近づくほど性能が⾼いので、最終⽇に近づくほどpaoさんの重みを上げている（public: 0.3072 -> 0.3089, 4位相当） 3

順位の変遷 4

チームマージ前（u++）類似コンペのKaggle「TalkingData AdTracking Fraud Detection Challenge」の1位解法を参考にしつつ、1100程度を作成 StratifiedKFoldで学習したLightGBMが、CV: 0.3736、LB: 0.2427
と過学習気味（macbook pro RAM 16GB で取り組んでいた） 5

チームマージ前（pao） Timesplitで学習したLightGBM（最後1週間をValidに）で、 CV: 0.2460、LB: 0.2319 特徴量を作成しCVを確認しながら追加し、100程度「特徴量を追加してもCVが下がってばかりで苦戦している」 -> 順位的には上にいたが過学習に苦しんでいたu++と、特徴量のアイディアを欲していたpaoさんの利害が⼀致した
6

チームマージ後の戦略 . Slack に private channel を作成 . お互いの取り組みを簡単に共有 .
予想通り⽅向性がある程度異なっていたので、アンサンブルに期待しつつ、多様性を保ちながら互いのモデルを育てていくことに . バリデーション、特徴量、ハイパーパラメータなどの気付きは積極的に議論 7

サブミット回数⽔曜夜のチームマージ時点で残り32サブ（23サブ消化）最初にサブミット回数について確認ひとまず1⼈10サブくらいは⾃由に残りはアンサンブル？⾦曜朝に2⼈ともLB: 0.264に到達アンサンブル上げ幅の確認のため平均を提出し、LB: 0.280（相関は0.836）改めて個々のモデルを伸ばす⽅針に（残り20サブ）
終了までどれくらい時間が使えるか、いつ最後のアンサンブルをするかも確認 8

モデルの改善（u++） paoさんのアドバイスに沿って、trainとtestで解離しがちな特徴量を除いていくことでLBが向上たとえば「⽇付の day 部分を抽出した特徴はtestの期間が8 ⽇間しかないので危険かも」など 1⼈で取り組んでいると気付きづらい点を指摘してもらった具体的には特徴量を10個ほど削除することで、⼀気にLB: 0.2643
-> 0.2996 （チームマージで決意を固め、GCP RAM 128GB に課⾦） 9

モデルの改善（pao） u++側で効いていた特徴量のアイディアを活⽤ユーザ単位で次の imp_at との差分など、未来特徴量詳細はDiscussion参照（参加者のみ） https://www.guruguru.science/competitions/12/discussions/81f b3840-8902-4def-905f-a9a246f9aa39/ 10

未来特徴量の⼯夫 trainとtestでは期間が異なるので、同じように作るとtrainと testで解離が発⽣ trainの最初の⽅では、次の imp_at が14⽇後というデータが存在するが、testは8⽇間しかない testの最終⽇は、最⼤でも24時間後のデータ⼀定の期間以上のデータを null
に置換すると解離が防げる⼀⽅で、情報量が落ちる testの⽇付分の8モデルを作成（LB: 0.2705 -> 0.2869）初⽇モデル: 8⽇後以降は null 、2⽇⽬モデル: 7⽇後以降は null 、、、最終⽇モデル: 24時間以降は null 11

⽇付別モデルの⽐較 12

Date Weight Ensemble paoさんモデルの⽅がtest後半に強くなると想定した重み付き平均（LB: 0.3072 -> 0.3089） pao_weight =
{ '2020-06-27': 0.1, '2020-06-28': 0.18, '2020-06-29': 0.26, '2020-06-30': 0.33999999999999997, '2020-07-01': 0.42000000000000004, '2020-07-02': 0.5, '2020-07-03': 0.58, '2020-07-04': 0.66 } ※ 重みは適当だが、late subしても超えられず 13

まとめ CA × atmaCup 2nd の 5位解法の紹介 paoさんとのチームマージ後の戦略を中⼼に 14

CA x atmaCup 2nd, 5th Place Solution

CA x atmaCup 2nd, 5th Place Solution

Shotaro Ishihara

More Decks by Shotaro Ishihara

Other Decks in Technology

Featured

Transcript

CA × atmaCup 2nd 振り返り会 5th Place Solution ~チームマージ後の戦略を中⼼に~

チーム紹介 public 4位 -> private 5位 u++: https://twitter.com/upura0 pao: https://twitter.com/pppaaaooo

最終的なベストお互いの予測値の重み付き平均 u++: StratifiedKFoldで学習したLightGBM （public lb: 0.3015, 7位相当） pao: Timesplitで学習したLightGBM

順位の変遷 4

チームマージ前（u++）類似コンペのKaggle「TalkingData AdTracking Fraud Detection Challenge」の1位解法を参考にしつつ、1100程度を作成 StratifiedKFoldで学習したLightGBMが、CV: 0.3736、LB: 0.2427

チームマージ後の戦略 . Slack に private channel を作成 . お互いの取り組みを簡単に共有 .

⽇付別モデルの⽐較 12

Date Weight Ensemble paoさんモデルの⽅がtest後半に強くなると想定した重み付き平均（LB: 0.3072 -> 0.3089） pao_weight =

まとめ CA × atmaCup 2nd の 5位解法の紹介 paoさんとのチームマージ後の戦略を中⼼に 14