Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

student cup 2020 49th place's solution

student cup 2020 49th place's solution

Yuma Ochi (chizuchizu)

August 30, 2020
Tweet

More Decks by Yuma Ochi (chizuchizu)

Other Decks in Technology

Transcript

  1. About チズチズ • 越智 優真(オチ ユウマ) • 千葉大学教育学部附属中学校  3年 • Kaggle Expert

    • 美少女の最終形態→→→→→→→ • テーブルデータがメイン • NLP、PyTorchはじめて(BERT? ) • 専攻分野 なんでも
  2. モデルの構成 data BERT RoBERTa (XLNet) Regression TF-idf count-vector K-means not

    using augmentaion LGBM using augmentaion stacking predict
  3. Stratified KFold - 4 folds - targetの分布を残す - stacking用にoofもとる Structural

    Health Monitoring Using Extremely-compressed Data through Deep Learning - Scientific Figure on ResearchGate. Available from: https://www.researchgate.net/figure/Visualization-of-stratified-k-fold -cross-validation-with-k5_fig18_336889074 [accessed 29 Aug, 2020]
  4. Simple Transformers only 3 models!!! • BERT (uncased) • RoBERTa

    (uncased) • (XLNet (cased)) ALBERT、BERT-largeは効かなかった とにかく簡単にモデルが組めるし精度も良い • AdamW • 5 epoch • StratifiedKFold(4 folds) • 重み付きCE 出力 ・pred(0~3) ・ラベルごとのCE(float) の5カラムをoofとしてとった
  5. Augmentation(英→外→英) Google spread-sheetsで翻訳 • フランス語 • ドイツ語 • 日本語 •

    デフォルト(そのまま) をtrain, testで行ったので16倍 en ja fr de en ja fr de training inference stacking
  6. 効かなかったこと    やらなかったこと • BART, ALBERT, BERT-large • NN stacking • optimizerの変更(AdamWが最高)

    • pseudo labeling • optuna(手動チューニングが良かった ) • LB hack • post process
  7. 気をつけたこと     感想 • 良いvalidation(M5で散々思い知った) • 説明可能なモデル作り • 汎用的なモデル設計→LB hackは使わない • Kaggle

    solutionを読み漁る • ソースコードの管理を整える • 指標が謎 • 分布も謎(汎用性とは……) • 1 subはきつい • せめてSIGNATEのアフターイベントは 休日にしてほしかった