Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介][WWW2017]Optimizing the Recency-Relevancy...

ysekky
April 13, 2017

[論文紹介][WWW2017]Optimizing the Recency-Relevancy Trade-off in Online News Recommendations / paper-reading-gunosydm-118

ysekky

April 13, 2017
Tweet

More Decks by ysekky

Other Decks in Research

Transcript

  1. Optimizing the Recency-Relevancy Trade-off in Online News Recommendations Abhijnan Chakraborty

    @Max Planck Institute for Software Technology, Indian Institute of Technology(IIT) Saptarshi Ghosh @IIT, Indian Institute of Engineering Science and Technology(IIEST) Shibpur Niloy Ganguly@IIT Krishna P. Gummadi@Max Planck Institute for Software Technology WWW’17 Yoshifumi Seki@Gunosy Inc. Gunosyデータマイニング研究会 #117 2017.04.12
  2. 自己紹介 • 関 喜史 ◦ Gunosy 共同創業者 ◦ データ分析部研究開発チーム (仮)

    ◦ 東大松尾研, 工学博士(2017年3月卒) • 研究テーマ: ニュース推薦システムのサービス応用について • 関心領域 ◦ 推薦システム, ユーザ行動分析 • 趣味 ◦ アイドル、日本酒、将棋
  3. 概要 • 目的: いいニュースをサイトのトップに出したい ◦ パーソナライズをしたいわけではない • 序盤は当たり前のことを言ってる ◦ 新しいの出すだけだとダメ

    ◦ 人気の出すだけだとダメ ◦ その辺のトレードオフが辛い • この後どれぐらい読まれるか予測したい ◦ やってることはシンプル、 ◦ どちらかというと問題定義に重きをおいた論文 • 特別なデータセット使ってなくて、公開データ&クロールでやってる
  4. Datasets Used • Yahoo! News Dataset ◦ https://webscope.sandbox.yahoo.com/ ◦ R6B

    ▪ 652 news stories ▪ 28,041,015 user visit ◦ ニュース自体のデータはない • CLEF NewsREEL Dataset ◦ http://www.clef-newsreel.org/ ◦ News recommendation systemの評価プラットフォーム ◦ 244,48 news stories • NYTimes Dataset ◦ TwitterからNYTimesに関するニュースを収集 ◦ そのニュースへのツイートを StreamingAPIから収集
  5. Recency-Relevance Trade-offs • Recency ◦ ニュースは新しいといいよね! • Relevance ◦ ニュースは面白いといいよね!

    ▪ パーソナライズの文脈だと関連性だよね! ◦ 面白いニュースを評価する指標として PV(share数)があるね! ニュースの文脈だとこの2つはトレードオフ
  6. Trade-offがどうなってるのかを分析する • Latest ◦ 最新のニュースを選ぶ • Lifetime-Impact ◦ ここまで一番PVがあったものを選ぶ •

    Future-Impact ◦ このあと一番PVがでるものを選ぶ ◦ 理想(できないけど、最高の戦略として) • Recent-Impact ◦ 直近のある区間で一番 PVがあったやつを選ぶ • Rising-Impact ◦ 直近のある区間で一番 PVが上昇したのを選ぶ
  7. • 各戦略でえらんだニュースを評価 ◦ Average Age: 選ばれたニュースが出てからの平均時間 ◦ Average Lifetime-Impact: 選ばれたニュースの

    PVの平均 ◦ Average Future Impact: 選ばれたニュースのその後の PV • 一番PVあるのえらんでも、その後は読まれないことが多い • 新しいの選ぶだけでもだめ • Rasing, RecentはLifetimeよりはいいけど、データによってはLatestのほうがいい
  8. Future-Impactを予測したい • 制約として、これまでのPVしか知らない状況でやる。 • これまでのPVを知っているので、Future-Impactを予測することはLifetime-Impact を予測することと同義 • 2つの方法で予測を試みる ◦ Ordinary

    Least Squares(OLS) ◦ Gradient Tree Boosting(GTB) • x_s: 記事ベクトル. ◦ m次元. ▪ m: 記事が生成されてから、予測を始める時間までの 15分ごとのインターバルの数. ◦ 各featureはその時間でのPV ◦ (つまり、時間によって次元数が変わるってこと?????怪しくない???? )
  9. Method1: Ordinary Least Squares(OLS) •   ◦ y_s: ニュースsのlifetime-impact(総PV) ◦

    β: ベクトル. β_0の項も考える(つまりm+1次元?) ▪ (このβ, mの違いごとに学習するのだろうか ...) ◦ ε: ランダムノイズ
  10. Method2: Gradient Tree Boosting • すごい雑にいうと、決定木を組み合わせてBoostingする方法 ◦ Gradient Decision Tree

    Boosting(GDTB)のほうが一般的かも ◦ 古い手法だけど、Kaggleとかで成果だしてて結構いまでも流行っている
  11. • 予測誤差が時間が経つにつれて小さくなる(情報が増える) • (b) 時間が経つにつれて、予測区間も小さくなる ◦ (ただ、これ正規化されてないから、平均?にしていいいのかという ) ◦ (c)

    ただ、そもそもFuture-Impact自体が小さくなるから どうなんだろうね… ▪ (著者は、時間が経つと予測対象になりにくく成るから意味ないっていってるけど、そもそも Prediction Intervalが相対的に縮まってるだけじゃねって ) •