推薦データ分析コンペに参加して得た知見

© 2024 Wantedly, Inc. 推薦データ分析コンペに参加して得た知見 AIミーティング 2024/01/10 Jan. 10
2024 - Yudai Hayashi

© 2024 Wantedly, Inc. INTERNAL ONLY 自己紹介林　悠大 • 経歴：
◦ 東京大学工学系研究科でPh.D取得 ◦ 2022年にウォンテッドリーにデータサイエンティストとして新卒入社。推薦システムの開発を行う • X: @python_walker • 趣味： ◦ 読書 ◦ 音楽聴くこと ◦ ウイスキー

© 2024 Wantedly, Inc. INTERNAL ONLY 今日話すこと • データ分析コンペって何？ •
どんなコンペに参加した？ • 参加することでどんな知見を得られた？

© 2024 Wantedly, Inc. INTERNAL ONLY データ分析コンペとは • 与えられた課題に対して精度の高いモデルを構築して競うコンペ •
有名なものだとKaggleやatma, signateなど • なぜ参加するのか ◦ 普段の業務にとらわれない幅広い知識を学べる ◦ 新しいことを試せる

© 2024 Wantedly, Inc. INTERNAL ONLY 今回参加したコンペ • atmaで開催されたコンペ •
期間は一週間 • テーマはじゃらんのセッションデータを用いた予約される宿の予測 • 評価指標はMAP@10 https://www.guruguru.science/competitions/22

© 2024 Wantedly, Inc. INTERNAL ONLY 与えられたデータ • セッション情報 ◦
どの順番でどの宿を見たか • 宿の情報 ◦ 所在地 (地方、都道府県などがエンコード) ◦ 宿の部屋数 ◦ 立地の情報 (駅が近い、コンビニが近い、、、) ◦ 宿の画像のembedding ◦ … • データの難しかったところ ◦ 長さが1のセッションが大量にあった

© 2024 Wantedly, Inc. INTERNAL ONLY おおまかな方針 • 宿は1.4万件くらい、セッションは40万個あるので全組み合わせ(56億通り!)で推論すると計算にかなりの時間がかかるし非効率
• 候補の絞り込み + 並び替えの2-stage構成でモデルを構築 ◦ 候補生成：予約されそうな宿をざっくり取ってくる ◦ リランキング：候補を予測される確率が高い順に並び替える宿全体 Top-10 Candidate Generator Re-ranker

© 2024 Wantedly, Inc. INTERNAL ONLY 候補生成の方法複数の手法を組み合わせて、予約されそうな宿の集合を構築する • セッション中に出現する宿
• 見ている宿とよく一緒に見られている宿 • 見ている宿の次に見られていることが多い宿上位解法で使われていた手法 • グラフ構造を使った生成 ◦ ProNE ◦ 共起グラフからクラスタ係数やホップ数を計算

© 2024 Wantedly, Inc. INTERNAL ONLY リランキングの方法 LightGBMでbinary classificationタスクとして解いた •
セッションの情報 ◦ どの地域の宿を見ている？ ◦ どんな条件で宿を見ている？ • 宿の情報 ◦ どこにある？ ◦ どんな立地？ • 候補生成で使った特徴量 ◦ セッションで見られていた宿とどれくらい一緒に見られている？上位解法で使われていた手法 • セッションの長さが1のものに対しては遷移確率を使ったルールベース手法 • train/testでのデータの傾向変化に影響を受けづらい特徴量設計

© 2024 Wantedly, Inc. INTERNAL ONLY まとめ • 業務とは異なるドメインのデータを使えることで得られた学びは多かった •
他の参加者の挙げたディスカッションを通して色々なデータの見方を学べた ◦ train/testでデータ分布が変わっている ◦ セッションで見ている地域と予約した地域が異なるときの考察 ◦ etc.

推薦データ分析コンペに参加して得た知見

推薦データ分析コンペに参加して得た知見

Yudai Hayashi

More Decks by Yudai Hayashi

Other Decks in Programming

Featured

Transcript

© 2024 Wantedly, Inc. 推薦データ分析コンペに参加して得た知見 AIミーティング 2024/01/10 Jan. 10

© 2024 Wantedly, Inc. INTERNAL ONLY 自己紹介林　悠大 • 経歴：

© 2024 Wantedly, Inc. INTERNAL ONLY 今日話すこと • データ分析コンペって何？ •

© 2024 Wantedly, Inc. INTERNAL ONLY データ分析コンペとは • 与えられた課題に対して精度の高いモデルを構築して競うコンペ •

© 2024 Wantedly, Inc. INTERNAL ONLY 今回参加したコンペ • atmaで開催されたコンペ •

© 2024 Wantedly, Inc. INTERNAL ONLY 与えられたデータ • セッション情報 ◦

© 2024 Wantedly, Inc. INTERNAL ONLY おおまかな方針 • 宿は1.4万件くらい、セッションは40万個あるので全組み合わせ(56億通り!)で推論すると計算にかなりの時間がかかるし非効率

© 2024 Wantedly, Inc. INTERNAL ONLY 候補生成の方法複数の手法を組み合わせて、予約されそうな宿の集合を構築する • セッション中に出現する宿

© 2024 Wantedly, Inc. INTERNAL ONLY リランキングの方法 LightGBMでbinary classificationタスクとして解いた •

© 2024 Wantedly, Inc. INTERNAL ONLY まとめ • 業務とは異なるドメインのデータを使えることで得られた学びは多かった •