Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 / User-guided Hierarchical Attention Netw...
Search
chck
August 31, 2018
Research
0
6
論文読み会 / User-guided Hierarchical Attention Network for Multi-modal Social Image Popularity Prediction
社内論文読み会、PaperFridayでの発表資料です
chck
August 31, 2018
Tweet
Share
More Decks by chck
See All by chck
CyberAgent AI Lab研修 / Container for Research
chck
0
1.6k
CyberAgent AI Lab研修 / Code Review in a Team
chck
2
1.4k
論文読み会 / Socio-Technical Anti-Patterns in Building ML-Enabled Software: Insights from Leaders on the Forefront
chck
0
37
CyberAgent AI事業本部MLOps研修Container編 / Container for MLOps
chck
2
5.4k
論文読み会 / GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models
chck
0
19
論文読み会 / On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models
chck
0
8
論文読み会 / GUIGAN: Learning to Generate GUI Designs Using Generative Adversarial Networks
chck
0
11
機械学習開発のためのコンテナ入門 / Container for ML
chck
0
900
Web系企業研究所における研究開発を加速させるエコシステム / Ecosystem accelerates our R&D in CyberAgent AI Lab
chck
0
140
Other Decks in Research
See All in Research
LLM-as-a-Judge: 文章をLLMで評価する@教育機関DXシンポ
k141303
3
780
SSII2025 [TS1] 光学・物理原理に基づく深層画像生成
ssii
PRO
3
2.9k
rtrec@dbem6
myui
6
790
データサイエンティストの採用に関するアンケート
datascientistsociety
PRO
0
780
Data-centric AI勉強会 「ロボットにおけるData-centric AI」
haraduka
0
630
利用シーンを意識した推薦システム〜SpotifyとAmazonの事例から〜
kuri8ive
1
180
Self-supervised audiovisual representation learning for remote sensing data
satai
3
170
DeepSeek を利用する上でのリスクと安全性の考え方
schroneko
3
1.4k
AIによる画像認識技術の進化 -25年の技術変遷を振り返る-
hf149
6
2.7k
Sosiaalisen median katsaus 03/2025 + tekoäly
hponka
0
1.1k
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
chemical_tree
2
560
Ad-DS Paper Circle #1
ykaneko1992
0
5.2k
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
523
40k
GraphQLとの向き合い方2022年版
quramy
46
14k
A designer walks into a library…
pauljervisheath
205
24k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
137
34k
The Pragmatic Product Professional
lauravandoore
35
6.7k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.8k
4 Signs Your Business is Dying
shpigford
183
22k
[RailsConf 2023] Rails as a piece of cake
palkan
55
5.6k
Code Review Best Practice
trishagee
68
18k
Why You Should Never Use an ORM
jnunemaker
PRO
56
9.4k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.5k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
228
22k
Transcript
User-guided Hierarchical Attention Network for Multi-modal Social Image Popularity Prediction
Yuki Iwazaki@AI Lab Wei Zhang, Wen Wang, Jun Wang, Hongyuan Zha East China Normal University, Georgia Institute of Technology, JD.com
どっちがView稼ぎそうか
Potential予測と重要点可視化
なんでこれ ◉ 業務: Media Ads x Multimodal x Engagements ◦
Facebook/Twitter/LINE広告の画像/文章/配信設定からCTR予測 ◉ これ: Social Media x Multimodal x Popularity ◦ Flickrの画像/文章/User表現からView予測
なんでこれ ◉ 業務: Media Ads x Multimodal x Engagements ◦
Facebook/Twitter/LINE広告の画像/文章/配信設定からCTR予測 ◉ これ: Social Media x Multimodal x Popularity ◦ Flickrの画像/文章/User表現からView予測
TL;DR ◉ SNSに投稿した画像のView数を予測 ◉ Image/Text/Userをうまく学習する高精度な手法を提案 ◉ 予測に重要な単語、画像部位の可視化 ◉ FlickrをCrawlingしてデータ作ったから皆使ってね
3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge
- 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???)
3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge
- 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???) 👉
3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge
- 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???) 👉
Flickr Popularity Prediction Post# User# Categories# Months Avg(Title len.) Tags#
POIs# Avg. Views 340K 80K 11 16 26 669 103K 306 Winners Talkと思いきや主催者側
こんなデータ 1 { ‘uid’: ‘37810@N60’, ‘pid’: ‘565202’, ‘category’: ‘Fasion’, ‘subcategory’:
‘Girls,Fasion’, ‘concept’: ‘skirt’, ‘pathalias’: ‘None’, ‘ispublic’: ‘1’, ‘mediastatus’: ‘ready’, ‘title’: ‘2016-03-07 17.54.15’, ‘mediatype’: ‘photo’, ‘alltags’: ‘orange sexy philadelphia blonde hockey sweater’, ‘postdate’: ‘1457273948’, ‘latitude’: ‘0’, ‘longitude’: ‘0’, ‘geoaccuracy’: ‘0’ } { ‘views’: ‘876’, ‘favs’: ‘1’, ‘comments’: ‘0’ } popularity score: 3.2
こんなデータ 2 { ‘uid’: ‘25893@N22’, ‘pid’: ‘565381’, ‘category’: ‘Whether&Season’, ‘subcategory’:
‘Raining’, ‘concept’: ‘puddle’, ‘pathalias’: ‘hoo_nose_68’, ‘ispublic’: ‘1’, ‘mediastatus’: ‘ready’, ‘title’: ‘Tristesse at the Federal Chancellery’, ‘mediatype’: ‘photo’, ‘alltags’: ‘blackandwhite bw reflection berlin wet rain symmetry’, ‘postdate’: ‘1457273948’, ‘latitude’: ‘52.520213’, ‘longitude’: ‘13.373097’, ‘geoaccuracy’: ‘16’ } { ‘views’: ‘630’, ‘favs’: ‘8’, ‘comments’: ‘0’ } popularity score: 2.3
問題設定 Visual Textual User Popularity Score 画像(i)投稿時の情報からPopularity Score(y)を予測
Popularity Score days views
Proposed Methodology 提案手法 1
User-guided Hierarchical Attention Network(UHAN)
How to Representation 各入力の説明 2
Image Representation ◉ Input image 448x448 ◉ ImageNet Pre-trained VGG16
w/o top-> 14x14x512 448x448
Text Representation ◉ Input text max 50 words ◉ one-hot
embedding -> LSTM -> 50x512
User Representation ◉ one-hot per user ID -> 謎のUser Embedding->
512 ◉ 後述するinter-attentionで嗜好等のUser表現をGet
User-guided Hierarchical Attention Mechanism Attention機構の説明 3
intra-attention for Vitual
画像のどこに注目すればいいかの指標 画像領域mに対してUser, Text表現の関連度を計算 intra-attention for Vitual Visual 画像領域mの Importance Score
User Textual
intra-attention for Textual
intra-attention for Textual どの単語に注目すればいいかの指標 単語tに対してUser, Visual表現の関連度を計算 単語tの Importance Score Visual
User Textual
User-guided inter-attention
User-guided inter-attention UserとImageの関連性 UserとTextの関連性
Experiment 実験 4
実験で確かめたいこと ◉ Q1. 既存手法と比べて性能どうなのか ◉ Q2. VisualとTextualのModalityは効果的か ◉ Q3. 提案手法のどのパーツが予測に貢献したか
データセット ◉ Flickr179K Datasetを構築 ◉ 英語Post以外削除, 単語に分割, 小文字化, 頻度5回以下の単語削除, 5単語以下のPost削除
◉ 時系列順で最初の70%をTraining用 ◦ RandomよりRealだろうとのこと ◉ 残り10%をValidation用, 20%をTest用 ◉ 十分に投稿してる128Userを選定
評価指標
戦わせる既存手法 MultimodalやAttention機構を持つ手法を選択 ◉ HisAve. ◦ 今までのPopularityの平均を取るだけ ◉ SVR. ◦ 人手で特徴設計,
色, TF-IDF, W2V色々試してbestを選択 ◉ DMF. ◦ VGG+LSTMの出力のvector横に繋げてDNN. by Esty ◉ DualAtt. ◦ 提案手法からUser表現を抜いたDNN w/ Att. by NAVER
Experiment Results 実験結果 5
Q1. 既存手法と比べてどうなのか 提案手法が最高 . User特徴は大事
Q2. VisualとTextualのModalityは効果的か どっちも大事だけど特にテキストが効く
Q3. 提案手法のどのパーツが予測に貢献したか 全部入りが一番良い
Attentionの可視化 提案手法は Attentionもくっきり
Attentionの可視化 - 雀と蝶は良い例 - 重要箇所を可視化できてる - 模様は悪い例 - 画像中に理解しやすい物体がない -
美学的指標を入れると改善しそう
Attentionの可視化 - 異なるスタイルの2User - A...人間多め - AのAttentionは人間を見れている - 最後の飛行機みたいに自分らしくないことするとだめ -
B...人間少なめ物体多め - Bの飛行機はくっきり特徴が取れている - 普段からそれっぽい画像を投稿しているため - PersonalizedされたAttentionを算出できる
まとめ ◉ SNSに投稿した画像のView数を予測 ◉ Image/Text/Userをうまく学習する高精度な手法を提案 ◉ 予測に重要な単語、画像部位の可視化 ◉ FlickrをCrawlingしてデータ作ったから皆使ってね
感想 ◉ Attentionを可視化するだけで画像・テキストそれぞれ人気 度に効く特徴が見えて良い ◉ 広告にもそのまま使えそう ◦ User特徴の表現力次第なので広告主をどうデザインできるか
Any questions ? You can find me at ◉ @chck
◉
[email protected]
Thanks! 42
Feedback ◉ Attentionとは ◦ 出力に影響を与える入力系列の重要度を割合で計算して おきvectorに掛け合わせて使う機構 ◉ Attentionの可視化を見て何を判断するのか ◦ Embeddingの確認,
+αなので定量的なものではない ◦ エラー分析の判断材料にはなると思う ◉ MSE, MAEの2指標ある理由 ◦ 予測の分散への厳しさの程度 ◉ 128Usersしか使ってないところが肝 ◦ 実データはもっとlong tailでcold startなので難しい
実装詳細 ◉ 言語処理 ◦ 50単語以上は切捨, Embedding, LSTM共に512次元 ◉ 画像処理 ◦
入力は196x512 ◉ User表現 ◦ 512次元 ◉ Keras ◦ Adam, batch_size: 128, Early Stopping