Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理初心者が AutoNLP に挑戦した話 / 8th place solution ...

Avatar for Kon Kon
October 25, 2019

自然言語処理初心者が AutoNLP に挑戦した話 / 8th place solution of AutoNLP 2019

Avatar for Kon

Kon

October 25, 2019
Tweet

More Decks by Kon

Other Decks in Science

Transcript

  1. Yu Ohori (a.k.a. Kon) NS Solutions Corporation (Apr 2017 -

    ) • Researcher • Data Science & Infrastructure Technologies • System Research & Development Center • Technology Bureau @Y_oHr_N @Y-oHr-N #SemiSupervisedLearning #AnomalyDetection #DataOps
  2. 本大会の内容は? 入力 • 5 つの自然言語データセット(英語・中国語) • 言語等が記載されたファイル(右図) 提出物 • 学習,予測を行うコード

    制約 • 計算資源:1 GPU & 4 vCPUs (26 GB Memory) • 計算時間:40 分 評価指標 • Area under the Learning Curve (ALC) 4
  3. 7 我々の解法は? Sampler TfidfVectorizer TruncatedSVD LightGBMClassifier • 10 万件以下になるように無作為に抽出 •

    全角英数字を半角英数字に変換,大文字を小文字に変換,不要な記号を削除 • 中国語を jieba-fast で分かち書き • ストップワードを削除(https://github.com/stopwords-iso/stopwords-zh) • max_features=100_000, max_df=0.95, min_df=2 • n_components=100 • class_weight='balanced', feature_fraction=0.1, n_estimators=1_000 • early_stopping_rounds=10 • ハイパパラメータ探索は未実施
  4. 上位解法は? 8 Rank Team name Models URL 1 DeepBlueAI CNN,

    RNN https://github.com/DeepB lueAI/AutoNLP 2 upwind_flys LinearSVM, CNN https://github.com/upwin dflys/AutoNlp 3 txta LinearSVM https://github.com/qingb onlp/AutoNLP