Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JSAI2025 RecSysChallenge2024 優勝報告

Avatar for kami kami
May 29, 2025

JSAI2025 RecSysChallenge2024 優勝報告

JSAI2025の企画セッション「人工知能とコンペティション」での発表資料です

https://www.ai-gakkai.or.jp/competition-convening-support-jsai2025/

Avatar for kami

kami

May 29, 2025
Tweet

More Decks by kami

Other Decks in Programming

Transcript

  1. © DeNA Co., Ltd. 1 RecSys Challenge 2024 優勝報告 企画セッション「人工知能とコンペティション」

    村上 直輝 AI技術開発部 AIイノベーショングループ 株式会社ディー・エヌ・エー
  2. © DeNA Co., Ltd. 2 村上直輝 • DeNA データサイエンティスト •

    一般社団法人国際人工知能オリンピック 日本委員会 (JOAI) 理事 • Kaggle Competitions Grandmaster • 機械学習コンペティションで複数回優勝 AI技術開発部 AIイノベーショングループ @634kami © DeNA Co., Ltd. 自己紹介 X(旧Twitter)
  3. © DeNA Co., Ltd. 4 1 Recommender Systems (RecSys) とは

    4 • 推薦システム分野におけるトップカンファレンス ◦ 企業による実応用トピックも多いのも一つの特色 • 2024年度はイタリア・バーリにて開催 ◦ Petruzzelli Theater & Politecnico di Bari at University Campus https://ja.wikipedia.org/ wiki/バーリ
  4. © DeNA Co., Ltd. 5 RecSys Challenge 2024 • RecSys併設コンペティションとして

    RecSys Challenge 2024 が開催 • 2024年度はEkstra Bladet社のニュース記事推薦タスク ◦ 参加チーム数: 145, 参加者数: 202, 総提出数: 774件 • コンペティション終了後、ワークショップの論文投稿&研究報告が行われた 2 https://recsys.eb.dk/workshop/
  5. © DeNA Co., Ltd. 6 WorkShop で Accept された論文 •

    今回のタスクへのアプローチを 中心に、新規性のある手法や分 析が含まれる論文が Accept • 入賞した上位3チーム以外も投稿 可能。結果的には上位のチーム が多かった模様 3 https://recsys.eb.dk/workshop/ 4th academic 2nd 5th 8th academic 1st 1st 3rd 2nd
  6. © DeNA Co., Ltd. 7 RecSys Challenge 2024:我々のチーム「:D」について • DeNA

    として3名のデータサイエンティストでチームを組み Challenge で優勝 ◦ 様々な事業・技術領域に関わる Kaggle Grandmaster & Master で構成 4 事業ポートフォリオ AI Team Reinforcement Learning Matching Computer Vision Multimodal Generative AI
  7. © DeNA Co., Ltd. 9 1 • ユーザへの表示記事の中で、クリックされる記事を予測 ◦ ユーザに表示される記事(数件~数百件)は与えられる

    • メインの評価指標は AUC ◦ 公平性、多様性、網羅性なども評価されたが順位には用 いられず タスクについて https://recsys.eb.dk/assets/pdf/recsys_worksh op_sponsor.pdf Articles article article 今回扱う範囲 クリック 予測 候補生成 impression
  8. © DeNA Co., Ltd. 10 メインとなる提供データ • 学習・推論の対象 ◦ Behavior:1週間分の閲覧記事、クリックした記事のデータが含まれる

    • 特徴量として利用可能 ◦ History:3週間分のクリックした記事のデータ ◦ Articles:記事に対するメタデータ 2 article id: 001 ✔ article id: 002 ✔ article id: 003 ✔ article id: 001 ー article id: 003 ー article id: 002 ✔ article id: 004 ー article id: 005 ー article id: 007 ✔ article id: 006 ー article id: 008 ー article id: 002 ー article id: 010 ー article id: 008 ✔ article id: 011 ー Behavior History 3 weeks 1week 〜 〜 Articles
  9. © DeNA Co., Ltd. 11 データ分割の設定 • History, Behavior データは、ホストによって

    Train, Validation, Test データに分割 ◦ 時間情報を含むので、未来のデータがTestデータとなるように ◦ リークを避けるための分割で、clickに関する直接的なリークは防げていた ◦ しかし、これだけでは閲覧に関するリークを防げなかった(後述) 3 Behavior: 5/18~5/24 History: 4/27~5/17 Behavior: 5/25~6/1 History: 5/4~5/24 Behavior: 6/2~6/8 History: 5/11~6/1 Train Validation Test Train/Validation/Test split (provided by host)
  10. © DeNA Co., Ltd. 12 データリークについて • 実は以下のような3種類のリークが存在していた: ◦ article

    の公開時から未来1週間の統計情報が含まれてしまっていた ◦ 未来において、どういう記事が表示されたかが分かってしまうこと ◦ 直近において、どういう記事が表示されたかが分かってしまうこと (実用観点でのリーク) 4 article id: 001 ✔ article id: 002 ✔ article id: 003 ✔ article id: 001 ? article id: 003 ? article id: 002 ? article id: 004 ? article id: 005 ? article id: 007 ? article id: 006 ? article id: 008 ? article id: 002 ? article id: 010 ? article id: 008 ? article id: 011 ? Behavior History 〜 〜 L2 L3 article id: 005 公開&集約開始 記事表示 集約終了時点 L1 publish L1 L2 L3
  11. © DeNA Co., Ltd. 13 データリークの対応について • コンテスト期間中、弊チームを含む複数名からのリークの指摘 • コンペティション期間中は公平性を保つためにデータリークの利用は

    OK に ◦ かなり広い範囲のリークのため、禁止にしようとしてもリーク情報を使ったかど うかの線引き・チェックがかなり難しい • コンペティション後の論文投稿時に、リークを利用しなかった時のスコアについての 記述も含めることで決着 5
  12. © DeNA Co., Ltd. 15 1 データ分割戦略 • ニュース推薦というタスクの都合上、情報の鮮度やトレンドは重要 •

    学習時と推論時の時間的なドメインシフトが最小限になるようにしたい → Validation データ含めてなるべく直近のデータを学習データに 学習 (ハイパラ決定) 再学習 推論 Behavior: 5/18~5/24 History: 4/27~5/17 Behavior: 5/25~6/1 History: 5/4~5/24 Train Validation Model (5/18~5/24) Validation Score Best Hyperparams Behavior: 5/18~5/24 History: 4/27~5/17 Behavior: 5/25~6/1 History: 5/4~5/24 Train Model (5/18~6/1) Behavior: 5/25~6/1 History: 5/4~5/24 Submission Use best hyperparams Use trained model
  13. © DeNA Co., Ltd. 16 全体のパイプライン • 3 stage のパイプライン

    ◦ Stage 1: Transformer, LightGBM, CatBoost を学習 ◦ Stage 2: LightGBMによるStacking, Optunaで重みを調整した加重平均 ◦ Stage 3: Stage 2 の出力結果の単純平均 2
  14. © DeNA Co., Ltd. 17 Transformerベースのモデル • 同一 impression 中における、表示された記事(inview

    article)をまとめて入力 • 8-layer, 128-dimensional, 4-head の Transformer を利用 3
  15. © DeNA Co., Ltd. 18 勾配ブースティングベースのモデル (LightGBM, CatBoost) • 他方で、LightGBM等のモデルは複数記事をまとめて予測できないので一つずつ予測

    • 学習は LambdaRank 等を用いることで同一 impression をグループとして学習 ◦ 学習時間の省略のために全 impression 中 20% のみを用いて学習 4 article id: 005 ? article id: 007 ? article id: 006 ? article id: 008 ? Impression features Inview features GBDT model Impression features Inview features Impression features Inview features Impression features Inview features Score Score Score Score Lambdarank loss
  16. © DeNA Co., Ltd. 19 特徴量エンジニアリング • 様々な特徴量を作成してモデルに入力 ◦ 記事の特徴量:提供された特徴量、過去にクリックされた回数などの統計量

    ◦ ユーザの特徴量:過去のクリック対象記事の統計量 ◦ impressionの特徴量:提供された特徴量 ◦ その他特徴量 ▪ 記事が public された時間とimpression時間の差分 ← 記事の鮮度を表す ▪ 記事が 過去 or 未来の一定期間に表示された回数 ← リーク情報 ◦ … 5
  17. © DeNA Co., Ltd. 20 実験1:手法ごとのAUCスコア • 手法ごとにAUCスコアを比較:Transformer > LightGBM

    ≒ CatBoost ◦ Transformer は impression 内の複数記事を同時に考慮できるので高い可能性 ◦ 最終的には Transformer ・ LightGBM 単一でも優勝スコアに • より直近の期間のデータ(Validationデータ) を含めて学習した方が高スコア 6 Model Validation Test (Training: 5/18~5/24) Test (Training: 5/18~6/1) Transformer LightGBM CatBoost 0.8734 0.8668 0.8652 0.8764 0.8694 0.8691 0.8864 0.8817 0.8805 Ensemble 0.8802 0.8827 0.8924 Table: AUC scores of each model in different data splitting methods.
  18. © DeNA Co., Ltd. 21 実験2:リーク情報のAblation Study • Transformer ベースについて、以下のリーク情報をなくした場合のスコアを確認

    7 • article の公開時から未来1週間の統計情報が含まれてしまっていた • 未来において、どういう記事が表示されたかが分かってしまうこと • 直近において、どういう記事が表示されたかが分かってしまうこと (実用観点でのリーク) L1 L2 L3 Model L1 L2 L3 Validation Test Full features ✓ ✓ ✓ 0.8734 0.8864 w/o future impressions - - ✓ 0.8495 0.8680 w/o test impressions - - - 0.7483 0.7699 Table: Impact of data leakage on Transformer-based model performance
  19. © DeNA Co., Ltd. 22 実験2:リーク情報のAblation Study • 今回のリークが非常に強力だったことが明らかに •

    ただし、直近の表示情報(L3) を活用できるような、リアルタイムな推薦基盤を作成す ることができれば、推薦精度は大きく向上する可能性も示された 7 Model L1 L2 L3 Validation Test Full features ✓ ✓ ✓ 0.8734 0.8864 w/o future impressions - - ✓ 0.8495 0.8680 w/o test impressions - - - 0.7483 0.7699 Table: Impact of data leakage on Transformer-based model performance
  20. © DeNA Co., Ltd. 24 詳細なソリューションについて • 論文とコードは公開済みです。ご興味のある方はぜひご確認ください ◦ 論文

    ▪ Kazuki Fujikawa, Naoki Murakami, and Yuki Sugawara. 2024. Enhancing News Recommendation with Transformers and Ensemble Learning. In Proceedings of the Recommender Systems Challenge 2024 (RecSysChallenge '24). Association for Computing Machinery, New York, NY, USA, 42–47. https://doi.org/10.1145/3687151.3687160 ◦ コード ▪ https://github.com/k-fujikawa/recsys-challenge-2024-1st-place 9