Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
kanto_kaggler_senkin13
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
senkin13
September 23, 2023
Technology
2.8k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
kanto_kaggler_senkin13
中国kaggler会&Post GMの振り返り
senkin13
September 23, 2023
More Decks by senkin13
See All by senkin13
kansai-kaggler-senkin13.pdf
senkin13
3
2.8k
atmaCup #16 in collaboration with RECRUIT 2nd place solution
senkin13
1
370
Other Decks in Technology
See All in Technology
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
2
350
データサイエンスを価値につなげるプロジェクト設計 〜 DS一年目が現場で得た気づき 〜
ysd113
1
260
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
1.1k
AIネイティブな開発のサプライチェーンリスク対策 〜激動の開発現場でリスクに立ち向かう〜【ZennFes】
cscengineer
PRO
2
130
中期計画、2回作ってみた ~業務委託と正社員、両方の視点から~
demaecan
1
880
2026TECHFRESH畢業分享會 - AI 時代的人生存檔點
line_developers_tw
PRO
0
1.1k
SONiCの統計情報を取得したい
sonic
0
180
連合学習と機密コンピューティング
lycorptech_jp
PRO
0
120
FinOps × AIエージェントで実現する コストインシデントの自動調査
oasis1994liveforever
0
140
AGENTS.mdとSkillsで始めるAIエージェント活用
sonoda_mj
3
220
20260619 私の日常業務での生成 AI 活用
masaruogura
1
210
Claude Codeとのおしゃべりでセマンティックモデルの定義からダッシュボード作成まで完成させる
nic_sugiyama
0
110
Featured
See All Featured
SEO for Brand Visibility & Recognition
aleyda
0
4.6k
It's Worth the Effort
3n
188
29k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
250
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.2k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
160
Into the Great Unknown - MozCon
thekraken
41
2.6k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
850
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Transcript
中国kaggler会&Post GMの 振り返り 詹金 センキン
自己紹介 Papa-kaggler Spa、温泉 サッカー観戦、 フットサル 旅行 中国出身、日本在 住15年、kaggle 歴6年
Agenda Part 1: 中国Kaggler会 • MGTV(IJCAI) Competition授賞式 • 上海&長沙Kagglerオフ会 •
中国のリアリティコンペティション番組 Part 2: Post GMの振り返り • 2019年からのコンペ振り返り • Multimodal Single-Cell Integrationコンペのリベンジ • H&M、Otto、KddCupレコメンデーションコンペの連続チャレンジ
MGTV(IJCAI) Competition授賞式 • MGTV Live配信 • 湖南テレビニュース報道
上海&長沙Kaggler会
中国のリアリティコンペティション番組 オンライコンペ予選 オフライコンペ決戦 & 番組撮影 面接 & キャラデザイン 優勝チーム:2000万円 Bilibili配信
燃えろ!天才プログラマー
2019年からの振り返り 2019/12 2023/09
First Stage : From Beginer To Expert Competition Public Private
Shake Medal Zillow’s Home Value Prediction (2018-01-11 ended) 185/3775 203/3775 ⬇28 Bronze Corporación Favorita Grocery Sales Forecasting (2018-01-15 ended) 42/1674 85/1674 ⬇43 Bronze Expert Recruit Restaurant Visitor Forecasting (2018-02-06 ended) 10/2157 760/2157 ⬇750 Mercari Price Suggestion Challenge (2018-02-21 ended) 32/2382 2318/2382 ⬇2286 Toxic Comment Classification Challenge (2018-03-20 ended) 78/4550 82/4550 ⬇4 Silver TalkingData AdTracking Fraud Detection Challenge (2018-05-07 ended) 7/3946 19/3946 ⬇12 Silver
Second Stage : From Master To Solo Gold Competition Public
Private Shake Medal Avito Demand Prediction Challenge (2018-06-27 ended) 8/1871 9/1871 ⬇1 Gold Master Home Credit Default Risk (2018-08-29 ended) 6/7190 8/7190 ⬇2 Gold Google Analytics Customer Revenue Prediction (2019-02-15 ended) Leak 85/3611 Silver Elo Merchant Category Recommendation (2019-02-26 ended) 3/4127 7/4127 ⬇4 Solo Gold
Third Stage : Keep Going To GrandMaster Competition Public Private
Shake Medal Santander Customer Transaction Prediction (2019-04-10 ended) 31/8802 24/8802 ⬆7 Gold Jigsaw Unintended Bias in Toxicity Classification (2019-06-27 ended) 30+/3165 Kernel Failed Predicting Molecular Properties (2019-08-28 ended) 15/2749 15/2749 - Gold GM
Forth Stage :Just For Fun Competition Public Private Shake Medal
2019 Data Science Bowl (2020-01 ended) 133/3493 6/3493 ⬆127 Gold Google Research Football with Manchester City F.C. (2020-12 ended) 9/1138 9/1138 - Gold Riiid Answer Correctness Prediction(2021-01 ended) 18/3395 18/3395 - Silver Cassava Leaf Disease Classification(2021-02 ended) 19/3900 48/3900 ⬇29 Silver
Fifth Stage :Restart to new stage Competition Public Private Shake
Medal H&M Personalized Fashion Recommendations(2022-05 ended) 1/2952 1/2952 - Winner American Express - Default Prediction 14/4874 86/4874 ⬇72 Silver Open Problems - Multimodal Single-Cell Integration(2022-11 ended) 1/1220 2/1220 ⬇1 2nd place OTTO – Multi-Objective Recommender System(2023-02 ended) 6/2574 2/2574 ⬆4 2nd place
Multimodal Single-Cell Integrationコンペのリベンジ train rows:105942 test rows:55935 Input seq length:
228942 Target seq length: 23418 train rows:70988 test rows:48663 Input seq length: 22050 Target seq length: 140 • このコンペティションには2つのパー トがある: MultiomeとCITEseqである。 • どちらのパートでも、ベクトル入力が 与えられたときにベクトル予測を行う ことができるモデルが必要である。 • Multiomeでは、変換された数値DNAデ ータを用いて、変換された数値RNAデ ータを予測する必要がある。 • CITEseqでは、変換された数値RNAデ ータを使って変換された数値Proteinデ ータを予測する必要がある。
Multiome Model 1.1 0.8 0.2 … … 2.3 1.4 0.1
1.1 0.8 0.2 … … 2.3 1.4 0.1 1000 models 1 model 2.1 0.7 0.1 … … 0.4 1.2 0.3 23418 dimensions pca transform(inverse) LightGBM Neural Network 1 model pca transform(inverse) Features for lightgbm Features for neural network 23418 dimensions
Multiom Model Raw Data Centered Log- Ratio (clr) -> tsvd
-> row- wise zscore predictions -> tsvd - > row-wise zscore Dense Layer Dense Layer Dense Layer Dense Layer Dense Layer Dense Layer NN 1 NN 2 Loss: Cosine similarity Hidden neurons:600 GussianDropout:0.3 Activation:swish LR:0.001 Optimizer: Adam Loss: Huber Hidden neurons:500 GussianDropout:0.3 Activation:swish LR: 0.001 Optimizer: Adam TF-IDF Data Ridge Kernel Ridge CatBoost LightGBM
Cite Model 1.1 0.8 0.2 … … 2.3 1.4 0.1
1.1 0.8 0.2 … … 2.3 1.4 0.1 140 models 1 model Features for lightgbm(sparse matrix) Features for neural network Lightgbm Neural Network 140 dimensions 140 dimensions
Raw Data Centered Log-Ratio (clr) -> tsvd -> row- wise
zscore Customized process - > tsvd & pca -> row- wise zscore Target High correlated features -> row- wise zscore predictions -> tsvd - > row-wise zscore BiGRU Layer Dense Layer Dense Layer Dense Layer Dense Layer BiGRU Layer Dense Layer NN 1 NN 2 Loss: Cosine similarity Hidden neurons:1800 GussianDropout:0.2 Activation:elu Initializer:Identity LR:0.001 Optimizer: Adam Concatenate:3 hidden layers pseudo labeling Loss: MSE Hidden neurons:1500 GussianDropout:0.1 Activation:swish LR: 0.0005 Optimizer: AdamW Target Zscore pseudo labeling LightGBM
レコメンデーションコンペの連続チャレンジ H&M Personalized Fashion Recommendations(2022/05) OTTO – Multi-Objective Recommender System(2023/02)
Amazon KDD Cup - Product Recommendation for Underrepresented Languages/Locales (2023/06)
Two-Stage Recommendation System • ステージ1(候補生成)では推薦可能な全ての可能な商品から数百の候補を選択。顧客が興 味のない候補を効率的に除外します。多様な手法を利用することでシステムの安定性の強 化にも寄与します。 • ステージ2 (ランキング)はステージ1で選ばれた候補アイテムをさらに絞り込み、最終的
な推薦を行います。このステージでは、候補商品と顧客の間のより詳細な関係や特徴を考 慮して、顧客の個人的な嗜好や興味、コンテキスト情報なども考慮して、よりパーソナラ イズされた推薦を行うことができます。このステージは精度改善を優先して、大量な特徴 量エンジニアリング、複雑のモデルを利用する。
候補生成ステージ – ラベリング • H&Mコンペの候補生成の例:すべての顧客に人気Top5の商品を候 補、顧客と商品のペアに対して次の週に実際に購入した商品は正例、 それ以外は負例となる二値ラベルを付与するという方法。
候補生成ステージ – 協調フィルタリング 1970年代から研究されている協調フィルタリング技 術が古い技術だが、洗練されていった結果で非常に 高い確率で当てる。いまでもレコメドシステムの主 流技術です。ここで簡単な例を紹介します。 •顧客:a・b・c・dの4人(dは推薦対象) •商品:1・2・3・4の4種 •顧客購入履歴:a(1,3,4)・b(1,2,3)・c(1,3,4)・d(1)
•商品同士の共起性(類似度) • 1と2:1回 • 1と3:3回 • 1と4:2回 •dに推薦商品順番 • 3,4,2 さらに高度な技術は重み付け類似度、顧客の購買回 数、商品の購買数、商品同士の購買間隔、 時間減衰 などを重みとして一緒に利用する
候補生成ステージ – embedding similarity • 協調フィルタリングから派生したembedding技術もた くさん出てきました。コンペ実戦で最も有効性を検証 できた技術三つである。 • 行列因子分解(Matrix
factorization)の一種である Bayesian Personalized Ranking (BPR)、 • 文章から単語の分散表現を獲得するWord2Vecをレコ メンドシステムに適用した技術のItem2Vec • ユーザノードとアイテムノードからなる2部グラフニ ューラルネットワーク(Graph NeuralNetwork)の一 種であるFast and Scalable Network Representation Learning(ProNE)。 • これらの技術で商品あるいは顧客のembeddingを抽出 して、近傍探索ライブラリ(faiss)で類似度(cosine similarity、euclidean distanceなど)を計算して類似な 候補商品を絞って、従来の協調フィルタリングと一緒 に使うとより高精度の候補生成戦略作れる
ランキングステージ – 特徴量エンジニアリング • レコメンドシステムの特徴 量は主に3種類あります。 顧客側特徴量、商品側特徴 量、顧客と商品の交互作用 特徴量、とくに交互作用特 徴量が精度改善にポテンシ
ャルが高いので、注力する べきです。 • ⇦H&Mコンペのインパクト 上位の特徴量
ランキングステージ – モデル • レコメンドシステムは二値分類とランキング学習(Learning-To-Rank)どちらでも実施で きます。 • 二値分類の場合point wiseと呼ばれて1つのサンプルから損失関数を計算する。 •
ランキング学習の場合pair wiseとlist wiseあり、pair wiseは顧客ごと候補商品中の2つ サンプルペアを正しく順序付けできれば結果は正しいランキングになる損失関数を計 算する。 • list wiseは顧客ごと全部の候補商品として良い並び順になっているかどうかを損失関数 を計算します。
ご清聴ありがとうございました!