Upgrade to Pro — share decks privately, control downloads, hide ads and more …

REVEAL Workshopの紹介

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for usaito usaito PRO
October 05, 2019

REVEAL Workshopの紹介

ACM RecSys Workshop on Reinforcement and Robust Estimators for Recommendation (REVEAL), Copenhagen, Denmark, Sep. 20, 2019.

https://sites.google.com/view/reveal2019/home

Avatar for usaito

usaito PRO

October 05, 2019
Tweet

More Decks by usaito

Other Decks in Research

Transcript

  1. Outline • Workshopの概要 • Metrics, Engagement, and Recommenders (Invited Talk)

    • Marginal Posterior Sampling for Slate Bandit (Oral Presentation) • Posterから2つの論⽂を軽く紹介 (Poster Presentation) • RecoGym Challenge (Competition) • 類似Workshopの紹介 (NeurIPSʼ19)
  2. そもそもRecSysの⽇程・構成って︖ • Main Conference: 9⽉16⽇ ~ 9⽉18⽇ ◦ long・short paperのoral

    presentationやposter presentation ◦ Industry sessionやPanel discussion • Tutorial: 9⽉19⽇午前 ◦ 推薦におけるバンディットやグラフ等の話 • Workshop: 9⽉19⽇午後 ~ 9⽉20⽇ ◦ 9⽉19⽇の午後にhalf-day workshop ◦ 9⽉20⽇は基本的にfull-day workshop ◦ 今回紹介するREVEALは学会最終⽇のfull-day workshop
  3. REVEAL Workshop 概要 • 推薦システムに潜在するバイアスの存在の指摘やその除去⽅法、 バンディット・強化学習との関連に特化したWorkshop • organizersやtalkersがall-star級に豪華 • 2018年に続いて2回⽬の開催

    • 4 invited talks + 7 oral presentations + 23 poster presentations • CAからはADEcon Teamが2本のポスター発表 (⾃分のやつ、Yale⼤学成⽥先⽣との共同研究) • その他Criteoから5本, Google・Netflixから2本. ⽇本からは富⼠通の今井さん
  4. Metrics, Engagement and Recommenders (Invited Talk) 概要 • onlineのuser engagementを測定するための

    指標(metric)として何が適しているかについて議論(本当にclickでいいの︖) • 例えば, clickよりもそのpageやappでどれくらいの時間を消費したか (dwell time)で 最適化した⽅が, 結果的にCTRの改善につながるなど, spotifyの事例を交えて紹介 • 関連する本会議論⽂. clickのあとの⾏動によってlabelを定義して学習. ( Leveraging Post-click Feedback for Content Recommendations )
  5. Metrics, Engagement and Recommenders (Invited Talk) Deriving User- and Content-specific

    Rewards for Contextual Bandit (WWWʼ19) • spotifyのplaylist recommendationにおける報酬の定義をどうすべきか︖ baselineは閾値を決めてのbinalize bandit policy
  6. Metrics, Engagement and Recommenders (Invited Talk) • しかしstreaming timeの分布はuserやplaylistの性質によって⼤きく異なる sleep

    playlist (緑) のstream timeが⻑い jazz listener (緑) のstream timeが⻑い Deriving User- and Content-specific Rewards for Contextual Bandit (WWWʼ19)
  7. Marginal Posterior Sampling for Slate Bandit (Oral Presentation) 概要 •

    複数のarmの組み合わせに対して1つのrewardが与えられる slate的な状況における新たなbanditアルゴリズムを提案 • 通常のバンディットよりも応⽤場⾯が多そうな問題設定 • 提案⼿法は既存のbaselineの精度と共に意思決定にかかる時間を改善 • long versionは, IJCAI19にfull paperとして採択済み
  8. Marginal Posterior Sampling for Slate Bandit (Oral Presentation) 研究の背景 •

    click確率を最⼤化する各slot配置の 組み合わせ(slate)の最適解は︖ • action数が組み合わせの数 だけあり学習の効率化が難 • 既存⼿法は、学習が⾮効率的で cold-startに対応できなかったり rewardに対する仮定がきつかったりした
  9. Marginal Posterior Sampling for Slate Bandit (Oral Presentation) 既存⼿法1: K-armed

    Bernoulli Bandit • 最も単純な⽅法. 1つのSlateを1つのactionと⾒て Tompson Samplingに当てはめる • 選択肢が⼀部被っている他のSlateの試⾏情報を 取り⼊れることができず, 学習が遅い • Slateの数だけパラメータをサンプリングする 必要がありarm選択に時間がかかる
  10. Marginal Posterior Sampling for Slate Bandit (Oral Presentation) 既存⼿法2: Generalized

    Linear Bandit • 各slotがrewardに対して線形に貢献しているという 仮定に基づいたバンディットモデル • 選択肢が⼀部被っている他のSlateの試⾏情報は モデルパラメータの学習を通して取り⼊れる • Rewardのモデルが線形というのは強い仮定 • Slateの数だけパラメータをサンプリングする 必要がありarm選択に時間がかかる
  11. Marginal Posterior Sampling for Slate Bandit (Oral Presentation) 提案⼿法: Marginal

    Posterior Sampling • 前述の課題を解決したTompson Sampling -basedのアルゴリズム • Arm選択をslateごとではなくslotごとに⾏う • rewardの発⽣過程に対する緩い仮定に基づく • 別のslateの情報もうまい具合に活⽤ • パラメータサンプリングの回数が少なく済むため arm選択にかかる時間も短縮
  12. Marginal Posterior Sampling for Slate Bandit (Oral Presentation) 提案⼿法: Marginal

    Posterior Sampling • Slateバンディットの状況を模倣した⼈⼯データでの実験において 累積報酬とarmの選択にかかる時間でBaselinesを上回る 選択肢の数が多い場合に提案⼿法が特に強い 10-70倍の⾼速化
  13. How Sensitive is Recommendation Systemʼs Offline Evaluation to Popularity? (Poster)

    概要 • ItemのpopularityがRecommenderのoffline評価に与える影響を評価 • Popularityの層別によって性能の順位が変わるという事実を指摘 ◦ Itemの全て使った時はBPRなどのPairwise algorithmが良い性能 ◦ ⼀⽅で、test dataをrare itemのみに絞った場合はPointwiseのMFが強かったり • ⾃分の隣でポスター発表をしていてだいぶ⼈を持って⾏かれた。。。 Popularityの違い
  14. How Sensitive is Recommendation Systemʼs Offline Evaluation to Popularity? (Poster)

    全itemに対する推薦精度はPairwiseの⽅が強い (⼀般にそう⾔われているはず) ただしtestをrare itemに絞っていくと 徐々にMFが優勢に
  15. 概要 • コンペ期間は10/01 – 11/30で 優勝賞⾦3,000ユーロ(約35万円) • criteoが実装したRecoGymを⽤いる • 強化学習で推薦すべきアイテムを決め,

    CTRで競う • 与えられるデータは何れかのpolicyで集められたデータなので バイアスがあり, それをいかにして取り除くかが鍵(なっているはず) RecoGym Challenge (Competition)
  16. 類似のWorkshopの紹介 Causal Machine Learning Workshop @NeurIPSʼ19 • 因果推論やバンディットに関する話題 • NeurIPSでは実は2017年から3年連続の開催

    • 毎回1年後のICMLやNeurIPSにfull paper論⽂の short versionが多く採択されている印象 • REVEALよりはちょっと理論寄り • 超豪華なInvited Speakers (今年はSusan Atheyとか) • ここでも発表してきます︕
  17. Reference • REVEAL Workshop 2019: https://sites.google.com/view/reveal2019/home • RecoGeym Challenge: https://sites.google.com/view/recogymchallenge/home

    • Metrics, Engagement & “Recommenders”. Mounia Lalmas. : https://www.slideshare.net/mounialalmas/engagement- metrics-and-recommenders • Marginal Posterior Sampling for the Slate Bandits. Maria Dimakopoulou, Nikos Vlassis, and Tony Jebara. In Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence (IJCAI), 2019. • Deriving User- and Content- specific Rewards for Contextual Bandits. Paolo Dragone, Rishabh Mehrotra, and Mounia Lalmas. In Proceedings of the International World Wide Web Conference (WWW), 2019. • How Sensitive is Recommendation Systemʼs Offline Evaluation to Popularity? Amir H Jadidinejad, Craig Macdonald, and Iadh Ounis. ACM RecSys Workshop on Reinforcement and Robust Estimators for Recommendation (REVEAL), 2019. • Counterfactual Cross-Validation. Yuta Saito and Shota Yasui. ACM RecSys Workshop on Reinforcement and Robust Estimators for Recommendation (REVEAL), 2019.