student cup 2020 49th place's solution

NLBEGINNER SIGNATE Student Cup 2020 49th place’s solution - chizuchizu
- 藤戸四恩

目次・自己紹介ページ・最終モデル・効かなかったこと・悲劇の結末

About チズチズ • 越智　優真（オチ　ユウマ） • 千葉大学教育学部附属中学校　 3年 • Kaggle Expert
• 美少女の最終形態→→→→→→→ • テーブルデータがメイン • NLP、PyTorchはじめて（BERT？） • 専攻分野　なんでも

藤戸四恩の自己紹介ページ・藤戸　四恩（フジト　シオン）・法政大学理工学部経営システム学科 3年・アルバイト・ギリア株式会社・ai academy チューター・サマーインターン
・IBMと大和総研に参加

最終モデル

モデルの構成 data BERT RoBERTa (XLNet) Regression TF-idf count-vector K-means not
using augmentaion LGBM using augmentaion stacking predict

重み付け LightGBM↓ trainのラベルの数の割合をdatasetのweightに NN系↑ CEに重みづけ

Stratified KFold - 4 folds - targetの分布を残す - stacking用にoofもとる Structural
Health Monitoring Using Extremely-compressed Data through Deep Learning - Scientific Figure on ResearchGate. Available from: https://www.researchgate.net/figure/Visualization-of-stratified-k-fold -cross-validation-with-k5_fig18_336889074 [accessed 29 Aug, 2020]

Simple Transformers only 3 models!!! • BERT (uncased) • RoBERTa
(uncased) • (XLNet (cased)) ALBERT、BERT-largeは効かなかったとにかく簡単にモデルが組めるし精度も良い • AdamW • 5 epoch • StratiﬁedKFold(4 folds) • 重み付きCE 出力・pred(0~3) ・ラベルごとのCE(ﬂoat) の5カラムをoofとしてとった

Augmentation（英→外→英） Google spread-sheetsで翻訳 • フランス語 • ドイツ語 • 日本語 •
デフォルト（そのまま）をtrain, testで行ったので16倍 en ja fr de en ja fr de training inference stacking

Regression（順序尺度としてみる） 0:Data scientist, 1:Machine learning engineer, 2:Software engineer, 3:Consultant  この4つを24パターンの順列を使用（4!=24）
・ LGBM result  • RMSE：1.0±0.3  • stackingに追加する→F1 +0.01  24 perminations

Features ・TF-IDF, Count Vectorを使用・100次元まで次元削減・KMeans ・100クラスに分類し、特徴量として使用 TF-IDF Count Vector
svd(dim 100) k-means (dim 100) Tokenizer(num_words = 2000) *keras.preprocessing.text

Stacking(LightGBM) ・tf-idfとcount vectorをSVDを行い100次元・k-meansで100クラス・augmentationを行った48個・上記をLGBMで学習 svd (100 dim) k-menas
(100 dim) augmentation (48 dim) LGBM(stacking) regression

LGBM stackingのimportance

効かなかったこと

LSTM ・LSTMをスタッキングに入れたところ手元 cvが、0.641 → 0.6399となり下がってしまった。・厳密には、BiLSTM → GRUの順になっている。・epochごとの重みのEMA(指数移動平均) ・CVは0.59
EMAは以下を参照し実装Single LSTM (3rd place)

効かなかったこと　　　　やらなかったこと • BART, ALBERT, BERT-large • NN stacking • optimizerの変更(AdamWが最高)
• pseudo labeling • optuna(手動チューニングが良かった ) • LB hack • post process

悲劇の結末

LB vs CV 1. CVとLBの相関なし！　ヨシ！ 2. Trust CV 3. LB信者堕ちるのかしら
4. ワクワクしながら順位発表を待つ

Why didn’t we shake up?(49th) • PublicとPrivateの分布が似てる • trainとは似てない（激ヤバ） 49th
4th

気をつけたこと　　　　　感想 • 良いvalidation（M5で散々思い知った） • 説明可能なモデル作り • 汎用的なモデル設計→LB hackは使わない • Kaggle
solutionを読み漁る • ソースコードの管理を整える • 指標が謎 • 分布も謎（汎用性とは……） • 1 subはきつい • せめてSIGNATEのアフターイベントは休日にしてほしかった

student cup 2020 49th place's solution

student cup 2020 49th place's solution

Yuma Ochi (chizuchizu)

More Decks by Yuma Ochi (chizuchizu)

Other Decks in Technology

Featured

Transcript

NLBEGINNER SIGNATE Student Cup 2020 49th place’s solution - chizuchizu

目次・自己紹介ページ・最終モデル・効かなかったこと・悲劇の結末

About チズチズ • 越智　優真（オチ　ユウマ） • 千葉大学教育学部附属中学校　 3年 • Kaggle Expert

藤戸四恩の自己紹介ページ・藤戸　四恩（フジト　シオン）・法政大学理工学部経営システム学科 3年・アルバイト・ギリア株式会社・ai academy チューター・サマーインターン

最終モデル

モデルの構成 data BERT RoBERTa (XLNet) Regression TF-idf count-vector K-means not

重み付け LightGBM↓ trainのラベルの数の割合をdatasetのweightに NN系↑ CEに重みづけ

Stratiﬁed KFold - 4 folds - targetの分布を残す - stacking用にoofもとる Structural

Simple Transformers only 3 models!!! • BERT (uncased) • RoBERTa

Augmentation（英→外→英） Google spread-sheetsで翻訳 • フランス語 • ドイツ語 • 日本語 •

Regression（順序尺度としてみる） 0:Data scientist, 1:Machine learning engineer, 2:Software engineer, 3:Consultant  この4つを24パターンの順列を使用（4!=24）

Features ・TF-IDF, Count Vectorを使用・100次元まで次元削減・KMeans ・100クラスに分類し、特徴量として使用 TF-IDF Count Vector

Stacking(LightGBM) ・tf-idfとcount vectorをSVDを行い100次元・k-meansで100クラス・augmentationを行った48個・上記をLGBMで学習 svd (100 dim) k-menas

LGBM stackingのimportance

効かなかったこと

LSTM ・LSTMをスタッキングに入れたところ手元 cvが、0.641 → 0.6399となり下がってしまった。・厳密には、BiLSTM → GRUの順になっている。・epochごとの重みのEMA(指数移動平均) ・CVは0.59

効かなかったこと　　　　やらなかったこと • BART, ALBERT, BERT-large • NN stacking • optimizerの変更(AdamWが最高)

悲劇の結末

LB vs CV 1. CVとLBの相関なし！　ヨシ！ 2. Trust CV 3. LB信者堕ちるのかしら

Why didn’t we shake up?(49th) • PublicとPrivateの分布が似てる • trainとは似てない（激ヤバ） 49th

気をつけたこと　　　　　感想 • 良いvalidation（M5で散々思い知った） • 説明可能なモデル作り • 汎用的なモデル設計→LB hackは使わない • Kaggle