$30 off During Our Annual Pro Sale. View Details »

kanto_kaggler_senkin13

senkin13
September 23, 2023

 kanto_kaggler_senkin13

中国kaggler会&Post GMの振り返り

senkin13

September 23, 2023
Tweet

Other Decks in Technology

Transcript

  1. 中国kaggler会&Post GMの
    振り返り
    詹金 センキン

    View Slide

  2. 自己紹介
    Papa-kaggler
    Spa、温泉
    サッカー観戦、
    フットサル
    旅行
    中国出身、日本在
    住15年、kaggle
    歴6年

    View Slide

  3. Agenda
    Part 1: 中国Kaggler会
    ● MGTV(IJCAI) Competition授賞式
    ● 上海&長沙Kagglerオフ会
    ● 中国のリアリティコンペティション番組
    Part 2: Post GMの振り返り
    ● 2019年からのコンペ振り返り
    ● Multimodal Single-Cell Integrationコンペのリベンジ
    ● H&M、Otto、KddCupレコメンデーションコンペの連続チャレンジ

    View Slide

  4. MGTV(IJCAI) Competition授賞式
    • MGTV Live配信
    • 湖南テレビニュース報道

    View Slide

  5. 上海&長沙Kaggler会

    View Slide

  6. 中国のリアリティコンペティション番組
    オンライコンペ予選
    オフライコンペ決戦 &
    番組撮影
    面接 & キャラデザイン
    優勝チーム:2000万円
    Bilibili配信
    燃えろ!天才プログラマー

    View Slide

  7. 2019年からの振り返り
    2019/12 2023/09

    View Slide

  8. First Stage : From Beginer To Expert
    Competition Public Private Shake Medal
    Zillow’s Home Value Prediction
    (2018-01-11 ended)
    185/3775 203/3775 ⬇28 Bronze
    Corporación Favorita Grocery Sales Forecasting
    (2018-01-15 ended)
    42/1674 85/1674 ⬇43 Bronze
    Expert
    Recruit Restaurant Visitor Forecasting
    (2018-02-06 ended)
    10/2157 760/2157 ⬇750
    Mercari Price Suggestion Challenge
    (2018-02-21 ended)
    32/2382 2318/2382 ⬇2286
    Toxic Comment Classification Challenge
    (2018-03-20 ended)
    78/4550 82/4550 ⬇4 Silver
    TalkingData AdTracking Fraud Detection
    Challenge (2018-05-07 ended)
    7/3946 19/3946 ⬇12 Silver

    View Slide

  9. Second Stage : From Master To Solo Gold
    Competition Public Private Shake Medal
    Avito Demand Prediction Challenge
    (2018-06-27 ended)
    8/1871 9/1871 ⬇1 Gold
    Master
    Home Credit Default Risk
    (2018-08-29 ended)
    6/7190 8/7190 ⬇2 Gold
    Google Analytics Customer Revenue Prediction
    (2019-02-15 ended)
    Leak 85/3611 Silver
    Elo Merchant Category Recommendation
    (2019-02-26 ended)
    3/4127 7/4127 ⬇4 Solo Gold

    View Slide

  10. Third Stage : Keep Going To GrandMaster
    Competition Public Private Shake Medal
    Santander Customer Transaction
    Prediction (2019-04-10 ended)
    31/8802 24/8802 ⬆7 Gold
    Jigsaw Unintended Bias in Toxicity
    Classification (2019-06-27 ended)
    30+/3165 Kernel
    Failed
    Predicting Molecular Properties
    (2019-08-28 ended)
    15/2749 15/2749 - Gold
    GM

    View Slide

  11. Forth Stage :Just For Fun
    Competition Public Private Shake Medal
    2019 Data Science Bowl
    (2020-01 ended)
    133/3493 6/3493 ⬆127 Gold
    Google Research Football with Manchester City
    F.C. (2020-12 ended)
    9/1138 9/1138 - Gold
    Riiid Answer Correctness
    Prediction(2021-01 ended)
    18/3395 18/3395 - Silver
    Cassava Leaf Disease Classification(2021-02
    ended)
    19/3900 48/3900 ⬇29 Silver

    View Slide

  12. Fifth Stage :Restart to new stage
    Competition Public Private Shake Medal
    H&M Personalized Fashion
    Recommendations(2022-05 ended)
    1/2952 1/2952 - Winner
    American Express - Default Prediction 14/4874 86/4874 ⬇72 Silver
    Open Problems - Multimodal Single-Cell
    Integration(2022-11 ended)
    1/1220 2/1220 ⬇1 2nd place
    OTTO – Multi-Objective Recommender
    System(2023-02 ended)
    6/2574 2/2574 ⬆4 2nd place

    View Slide

  13. Multimodal Single-Cell Integrationコンペのリベンジ
    train rows:105942
    test rows:55935
    Input seq length: 228942
    Target seq length: 23418
    train rows:70988
    test rows:48663
    Input seq length: 22050
    Target seq length: 140
    • このコンペティションには2つのパー
    トがある: MultiomeとCITEseqである。
    • どちらのパートでも、ベクトル入力が
    与えられたときにベクトル予測を行う
    ことができるモデルが必要である。
    • Multiomeでは、変換された数値DNAデ
    ータを用いて、変換された数値RNAデ
    ータを予測する必要がある。
    • CITEseqでは、変換された数値RNAデ
    ータを使って変換された数値Proteinデ
    ータを予測する必要がある。

    View Slide

  14. Multiome Model
    1.1 0.8 0.2 … … 2.3 1.4 0.1
    1.1 0.8 0.2 … … 2.3 1.4 0.1
    1000 models
    1 model
    2.1 0.7 0.1 … … 0.4 1.2 0.3 23418 dimensions
    pca transform(inverse)
    LightGBM
    Neural Network
    1 model
    pca transform(inverse)
    Features for lightgbm Features for neural network
    23418 dimensions

    View Slide

  15. Multiom Model
    Raw Data
    Centered Log-
    Ratio (clr) ->
    tsvd -> row-
    wise zscore
    predictions -> tsvd -
    > row-wise zscore
    Dense Layer
    Dense Layer
    Dense Layer
    Dense Layer
    Dense Layer
    Dense Layer
    NN 1 NN 2
    Loss: Cosine similarity
    Hidden neurons:600
    GussianDropout:0.3
    Activation:swish
    LR:0.001
    Optimizer: Adam
    Loss: Huber
    Hidden neurons:500
    GussianDropout:0.3
    Activation:swish
    LR: 0.001
    Optimizer: Adam
    TF-IDF Data
    Ridge
    Kernel Ridge
    CatBoost
    LightGBM

    View Slide

  16. Cite Model
    1.1 0.8 0.2 … … 2.3 1.4 0.1 1.1 0.8 0.2 … … 2.3 1.4 0.1
    140 models
    1 model
    Features for lightgbm(sparse matrix) Features for neural network
    Lightgbm Neural Network
    140 dimensions 140 dimensions

    View Slide

  17. Raw Data
    Centered Log-Ratio
    (clr) -> tsvd -> row-
    wise zscore
    Customized process -
    > tsvd & pca -> row-
    wise zscore
    Target High
    correlated
    features -> row-
    wise zscore
    predictions -> tsvd -
    > row-wise zscore
    BiGRU Layer
    Dense Layer
    Dense Layer
    Dense Layer
    Dense Layer
    BiGRU Layer
    Dense Layer
    NN 1 NN 2
    Loss: Cosine similarity
    Hidden neurons:1800
    GussianDropout:0.2
    Activation:elu
    Initializer:Identity
    LR:0.001
    Optimizer: Adam
    Concatenate:3 hidden
    layers
    pseudo labeling
    Loss: MSE
    Hidden neurons:1500
    GussianDropout:0.1
    Activation:swish
    LR: 0.0005
    Optimizer: AdamW
    Target Zscore
    pseudo labeling
    LightGBM

    View Slide

  18. レコメンデーションコンペの連続チャレンジ
    H&M Personalized Fashion
    Recommendations(2022/05)
    OTTO – Multi-Objective
    Recommender
    System(2023/02)
    Amazon KDD Cup - Product
    Recommendation for Underrepresented
    Languages/Locales (2023/06)

    View Slide

  19. Two-Stage Recommendation System
    • ステージ1(候補生成)では推薦可能な全ての可能な商品から数百の候補を選択。顧客が興
    味のない候補を効率的に除外します。多様な手法を利用することでシステムの安定性の強
    化にも寄与します。
    • ステージ2 (ランキング)はステージ1で選ばれた候補アイテムをさらに絞り込み、最終的
    な推薦を行います。このステージでは、候補商品と顧客の間のより詳細な関係や特徴を考
    慮して、顧客の個人的な嗜好や興味、コンテキスト情報なども考慮して、よりパーソナラ
    イズされた推薦を行うことができます。このステージは精度改善を優先して、大量な特徴
    量エンジニアリング、複雑のモデルを利用する。

    View Slide

  20. 候補生成ステージ – ラベリング
    • H&Mコンペの候補生成の例:すべての顧客に人気Top5の商品を候
    補、顧客と商品のペアに対して次の週に実際に購入した商品は正例、
    それ以外は負例となる二値ラベルを付与するという方法。

    View Slide

  21. 候補生成ステージ – 協調フィルタリング
    1970年代から研究されている協調フィルタリング技
    術が古い技術だが、洗練されていった結果で非常に
    高い確率で当てる。いまでもレコメドシステムの主
    流技術です。ここで簡単な例を紹介します。
    •顧客:a・b・c・dの4人(dは推薦対象)
    •商品:1・2・3・4の4種
    •顧客購入履歴:a(1,3,4)・b(1,2,3)・c(1,3,4)・d(1)
    •商品同士の共起性(類似度)
    • 1と2:1回
    • 1と3:3回
    • 1と4:2回
    •dに推薦商品順番
    • 3,4,2
    さらに高度な技術は重み付け類似度、顧客の購買回
    数、商品の購買数、商品同士の購買間隔、 時間減衰
    などを重みとして一緒に利用する

    View Slide

  22. 候補生成ステージ – embedding similarity
    • 協調フィルタリングから派生したembedding技術もた
    くさん出てきました。コンペ実戦で最も有効性を検証
    できた技術三つである。
    • 行列因子分解(Matrix factorization)の一種である
    Bayesian Personalized Ranking (BPR)、
    • 文章から単語の分散表現を獲得するWord2Vecをレコ
    メンドシステムに適用した技術のItem2Vec
    • ユーザノードとアイテムノードからなる2部グラフニ
    ューラルネットワーク(Graph NeuralNetwork)の一
    種であるFast and Scalable Network Representation
    Learning(ProNE)。
    • これらの技術で商品あるいは顧客のembeddingを抽出
    して、近傍探索ライブラリ(faiss)で類似度(cosine
    similarity、euclidean distanceなど)を計算して類似な
    候補商品を絞って、従来の協調フィルタリングと一緒
    に使うとより高精度の候補生成戦略作れる

    View Slide

  23. ランキングステージ – 特徴量エンジニアリング
    • レコメンドシステムの特徴
    量は主に3種類あります。
    顧客側特徴量、商品側特徴
    量、顧客と商品の交互作用
    特徴量、とくに交互作用特
    徴量が精度改善にポテンシ
    ャルが高いので、注力する
    べきです。
    • ⇦H&Mコンペのインパクト
    上位の特徴量

    View Slide

  24. ランキングステージ – モデル
    • レコメンドシステムは二値分類とランキング学習(Learning-To-Rank)どちらでも実施で
    きます。
    • 二値分類の場合point wiseと呼ばれて1つのサンプルから損失関数を計算する。
    • ランキング学習の場合pair wiseとlist wiseあり、pair wiseは顧客ごと候補商品中の2つ
    サンプルペアを正しく順序付けできれば結果は正しいランキングになる損失関数を計
    算する。
    • list wiseは顧客ごと全部の候補商品として良い並び順になっているかどうかを損失関数
    を計算します。

    View Slide

  25. ご清聴ありがとうございました!

    View Slide