Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読み会 / User-guided Hierarchical Attention Netw...

chck
August 31, 2018

論文読み会 / User-guided Hierarchical Attention Network for Multi-modal Social Image Popularity Prediction

社内論文読み会、PaperFridayでの発表資料です

chck

August 31, 2018
Tweet

More Decks by chck

Other Decks in Research

Transcript

  1. User-guided Hierarchical Attention Network for Multi-modal Social Image Popularity Prediction

    Yuki Iwazaki@AI Lab Wei Zhang, Wen Wang, Jun Wang, Hongyuan Zha East China Normal University, Georgia Institute of Technology, JD.com
  2. なんでこれ ◉ 業務: Media Ads x Multimodal x Engagements ◦

    Facebook/Twitter/LINE広告の画像/文章/配信設定からCTR予測 ◉ これ: Social Media x Multimodal x Popularity ◦ Flickrの画像/文章/User表現からView予測
  3. なんでこれ ◉ 業務: Media Ads x Multimodal x Engagements ◦

    Facebook/Twitter/LINE広告の画像/文章/配信設定からCTR予測 ◉ これ: Social Media x Multimodal x Popularity ◦ Flickrの画像/文章/User表現からView予測
  4. 3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge

    - 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???)
  5. 3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge

    - 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???) 👉
  6. 3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge

    - 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???) 👉
  7. Flickr Popularity Prediction Post# User# Categories# Months Avg(Title len.) Tags#

    POIs# Avg. Views 340K 80K 11 16 26 669 103K 306 Winners Talkと思いきや主催者側
  8. こんなデータ 1 { ‘uid’: ‘37810@N60’, ‘pid’: ‘565202’, ‘category’: ‘Fasion’, ‘subcategory’:

    ‘Girls,Fasion’, ‘concept’: ‘skirt’, ‘pathalias’: ‘None’, ‘ispublic’: ‘1’, ‘mediastatus’: ‘ready’, ‘title’: ‘2016-03-07 17.54.15’, ‘mediatype’: ‘photo’, ‘alltags’: ‘orange sexy philadelphia blonde hockey sweater’, ‘postdate’: ‘1457273948’, ‘latitude’: ‘0’, ‘longitude’: ‘0’, ‘geoaccuracy’: ‘0’ } { ‘views’: ‘876’, ‘favs’: ‘1’, ‘comments’: ‘0’ } popularity score: 3.2
  9. こんなデータ 2 { ‘uid’: ‘25893@N22’, ‘pid’: ‘565381’, ‘category’: ‘Whether&Season’, ‘subcategory’:

    ‘Raining’, ‘concept’: ‘puddle’, ‘pathalias’: ‘hoo_nose_68’, ‘ispublic’: ‘1’, ‘mediastatus’: ‘ready’, ‘title’: ‘Tristesse at the Federal Chancellery’, ‘mediatype’: ‘photo’, ‘alltags’: ‘blackandwhite bw reflection berlin wet rain symmetry’, ‘postdate’: ‘1457273948’, ‘latitude’: ‘52.520213’, ‘longitude’: ‘13.373097’, ‘geoaccuracy’: ‘16’ } { ‘views’: ‘630’, ‘favs’: ‘8’, ‘comments’: ‘0’ } popularity score: 2.3
  10. User Representation ◉ one-hot per user ID -> 謎のUser Embedding->

    512 ◉ 後述するinter-attentionで嗜好等のUser表現をGet
  11. データセット ◉ Flickr179K Datasetを構築 ◉ 英語Post以外削除, 単語に分割, 小文字化, 頻度5回以下の単語削除, 5単語以下のPost削除

    ◉ 時系列順で最初の70%をTraining用 ◦ RandomよりRealだろうとのこと ◉ 残り10%をValidation用, 20%をTest用 ◉ 十分に投稿してる128Userを選定
  12. 戦わせる既存手法 MultimodalやAttention機構を持つ手法を選択 ◉ HisAve. ◦ 今までのPopularityの平均を取るだけ ◉ SVR. ◦ 人手で特徴設計,

    色, TF-IDF, W2V色々試してbestを選択 ◉ DMF. ◦ VGG+LSTMの出力のvector横に繋げてDNN. by Esty ◉ DualAtt. ◦ 提案手法からUser表現を抜いたDNN w/ Att. by NAVER
  13. Attentionの可視化 - 異なるスタイルの2User - A...人間多め - AのAttentionは人間を見れている - 最後の飛行機みたいに自分らしくないことするとだめ -

    B...人間少なめ物体多め - Bの飛行機はくっきり特徴が取れている - 普段からそれっぽい画像を投稿しているため - PersonalizedされたAttentionを算出できる
  14. Feedback ◉ Attentionとは ◦ 出力に影響を与える入力系列の重要度を割合で計算して おきvectorに掛け合わせて使う機構 ◉ Attentionの可視化を見て何を判断するのか ◦ Embeddingの確認,

    +αなので定量的なものではない ◦ エラー分析の判断材料にはなると思う ◉ MSE, MAEの2指標ある理由 ◦ 予測の分散への厳しさの程度 ◉ 128Usersしか使ってないところが肝 ◦ 実データはもっとlong tailでcold startなので難しい
  15. 実装詳細 ◉ 言語処理 ◦ 50単語以上は切捨, Embedding, LSTM共に512次元 ◉ 画像処理 ◦

    入力は196x512 ◉ User表現 ◦ 512次元 ◉ Keras ◦ Adam, batch_size: 128, Early Stopping