Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読み会 / Lifelong Sequential Modeling with Perso...

chck
August 16, 2019

論文読み会 / Lifelong Sequential Modeling with Personalized Memorization for User Response Prediction

社内論文読み会、PaperFridayでの発表資料です

chck

August 16, 2019
Tweet

More Decks by chck

Other Decks in Research

Transcript

  1. 2 SIGIR2019: acceptance rate 19.7%(84/426) Target: ECサイトにおけるCTR予測 Authors: Kan Ren,

    Jiarui Qin, Yuchen Fang, Weinan Zhang, Lei Zheng, Weijie Bian, Guorui Zhou, Jian Xu, Yong Yu, Xiaoqiang Zhu, Kun Gai
  2. 4`

  3. Userの行動ログ 3つの特徴 ◂ Temporal dynamics of user tastes ◂ 興味ないけど友達に推められたとかその日の気分とか

    ◂ User毎に長さが異なる ◂ light/heavy userとか新規/古参userとか ◂ 古いUserログもUserの決定に影響しうる ◂ 次の図 5
  4. 2.1 User Response Prediction Contentに対するUserの興味 をモデリングし対応するUser eventを推測するタスク e.g. Clicks and

    Conversions 8 [1] https://medium.com/walmartlabs/robustness-for-user-response-prediction-bae97d7f064f
  5. 2.1 User Response Prediction ◂ Response or notの2値分類 ◂ 線形モデル

    ◂ Logistic Regression[14, 33] ◂ 非線形モデル ◂ Tree-based Models[20] ◂ Factorization Machines[38, 40] ◂ Neural Network Models[41, 61] 9
  6. 2.2 Sequential User Modeling Matrix Factorizationベース User x Itemの相互作用をモデリング Markov

    chainベース 各UserのItemの推移を確率モデル化 Neural Networkベース 行動履歴=連続した商品画像 RNN, CNN,... 10
  7. 2.2 Sequential User Modeling AttRec [Zhang, 2018] self-attentionで商品推薦 SHAN [Yang,

    2018] 2つのattention(長期記憶・短 期記憶)を使った商品推薦 ❌ lack long-term and multi-scale behavior 11
  8. 2.1 Memory-augmented Networks 主にNLP界隈で活用 Memory付きのNeural Network あとで詳しく説明 RUM [Chen, 2018]

    User行動を保存する機構を持つ Memory Network 12 ❌ directly use them from NLP tasks with fixed length
  9. Memory Networks 20 以下4要素のパラメータを最適化 InputFeatureMap 入力xを特徴表現I(x)に変換 Generalization 入力I(x)でメモリm i を更新

    (メモリの圧縮と一般化) OutputFeatureMap 入力I(x)とメモリmから 出力特徴oを計算 Response 出力特徴oを望ましい出力rに変換
  10. Memory Networks in NLP 1. 知識となる語彙数Vの文章X i (BoW)を用意する 26 X:

    吾輩は猫である 名前はまだない どこで生れたかとんと見当がつかぬ ...
  11. Memory Networks in NLP 27 2. 文章X i -> d×V次元のEmbeddingA

    -> Memory(Input)に格納 X: 吾輩は猫である 名前はまだない どこで生れたかとんと見当がつかぬ ...
  12. Memory Networks in NLP 28 3. 文章X i -> d×V次元のEmbeddingC

    -> Memory(Output)に格納 X: 吾輩は猫である 名前はまだない どこで生れたかとんと見当がつかぬ ...
  13. Memory Networks in NLP 29 4. V次元の質問文q -> EmbeddingB ->

    入力ベクトル(u)作成 Q. 吾輩は誰? X: 吾輩は猫である 名前はまだない どこで生れたかとんと見当がつかぬ ...
  14. Memory Networks in NLP 30 5. 質問文ベクトル(u)とMemory(Input)の内積 -> Softmax ->

    Attention(P i )作成 Q. 吾輩は誰? X: 吾輩は猫である 名前はまだない どこで生れたかとんと見当がつかぬ ...
  15. Memory Networks in NLP 31 6. sum(Attention(P i )×Memory(Output)) ->

    出力ベクトル(o)作成 Q. 吾輩は誰? 0.7 猫 0.2 犬 0.1 猿 X: 吾輩は猫である 名前はまだない どこで生れたかとんと見当がつかぬ ...
  16. Memory Networks in NLP 32 Q. 吾輩は誰? 7. 文章X i

    を写像したMemory(Output)に関連する Attention(P i )だけ大きくなるようなEmbeddingA,Bを学習 0.7 猫 0.2 犬 0.1 猿 X: 吾輩は猫である 名前はまだない どこで生れたかとんと見当がつかぬ ...
  17. 3.3. Hierarchical Periodic Memory Network (HPMN) ◂ 以下の特徴を持つLifelong Sequential Modeling

    ◂ 1. Hierarchical Memory for Sequential Modeling ◂ 2. Continuous Memory Update ◂ 3. Attentional Memory Reading ◂ 4. Memory Covarience Regularization 40
  18. Datasets ◂ Amazon ◂ レビュー数が5以上の家電商品, Userに絞って 各Userのreview履歴を元に最後にreviewした商品を予測 ◂ Taobao ◂

    多くのUser logを持つ. click, purchase, add-to-cart, fav ◂ XLong ◂ Taobao datasetのうちUserを減らしItem数を増やしたもの
  19. Datasets Amazon User: 中, Item: 少, log: 少 Taobao User:

    多, Item: 多, log: 中 XLong User: 少, Item: 中, log: 多 49
  20. Compared models; group 1 ◂ Aggregation-based models ◂ Contextを考慮せず行動履歴を集約する手法 ◂

    1. DNN [Zhou, 2018] ◂ 行動履歴をSum poolingしてUser特徴と結合 ◂ 2. SVD++ [Koren, 2008] ◂ GoodsとUser特徴の交互作用をFMで表現 52
  21. Compared models; group 2 ◂ Short-term sequential models ◂ RNN,

    CNN, Memory Network含む直近の Context(固定長)だけを考慮した手法 ◂ 1. GRU4Rec [Hidasi, 2016] ◂ RNNベース ◂ 2. Caser [Tang, 2018] ◂ CNNベース ◂ 3. DIEN [Zhou, 2019] ◂ RNN -> Attention -> RNN ◂ 4. RUM [Chen, 2018] ◂ User行動を保存する機構を持つMemory Network 53
  22. Compared models; group 3 ◂ Long-term sequential models ◂ 長いcontextを考慮した手法

    ◂ 1. LSTM [Hochreiter, 1997] ◂ LSTMベース. Memoryの限界はある ◂ 2. SHAN [Ying, 2018] ◂ 2つのAttention(長期記憶・短期記憶)を持つ ◂ 3. HPMN [Proposed] ◂ User Response Predictionへの応用はこれが初 54
  23. 62

  24. 65 User 3 は”tea”をClick 直近と過去両方のlogにteaが存在 HPMNの2ndと5th layer(w2, w5)のAttentionが高い 👍 短期・長期両方

    の依存を記憶できている 👍 本手法はマルチスケールシーケンシャルパターンに強い(RQ3)
  25. Conclusion and Future Work ◂ NLPのMemory Networkを膨大なUser logを持つ ECのItem推薦に応用 ◂

    各User logを全て保存しEnd-to-Endで学習する Hierarchical Periodic Memory Networkを提案 ◂ User logからCTR予測タスクでSOTA ◂ 今後の課題はMulti-task (e.g. Click and CV), ◂ User logをより柔軟に取り込むためのLayerレベルの DynamicなUpdate機構 67
  26. Comment ◂ User logの長さの調整を段階的に実験してほしかった ◂ 何件以上logがあるとこのモデルが良いみたいな ◂ Datasetの設計が興味深いが、ECのReviewはItemの質を表しそ うなのでItemの特徴量が足らなそう ◂

    Review Stars -> CTR予測 ◂ 広告の実験用OpenDataが少ないとも言える ◂ 古い行動履歴を実質捨てているプロダクトでいかがでしょうか ◂ 実装コード 68
  27. メモリの効率化 ◂ メモリの次元が大きいと検索が高コストなので hashingして高速化 ◂ Query(入力)を複数のbucketにhashし、同bucketのス コアのみ計算 ◂ 1. feature

    hashingベース ◂ Vocab分bucketを用意し、Queryに含まれる単語の bucketのみ考慮 ◂ 2. word embeddingベース ◂ 単語ベクトルをclustering、K個のbucketを用意し、 Queryに含まれる単語に近しいmemoryのみ考慮 72