Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 / User-guided Hierarchical Attention Netw...
Search
chck
August 31, 2018
Research
0
6
論文読み会 / User-guided Hierarchical Attention Network for Multi-modal Social Image Popularity Prediction
社内論文読み会、PaperFridayでの発表資料です
chck
August 31, 2018
Tweet
Share
More Decks by chck
See All by chck
CyberAgent AI Lab研修 / Container for Research
chck
0
1.8k
CyberAgent AI Lab研修 / Code Review in a Team
chck
2
1.6k
論文読み会 / Socio-Technical Anti-Patterns in Building ML-Enabled Software: Insights from Leaders on the Forefront
chck
0
41
CyberAgent AI事業本部MLOps研修Container編 / Container for MLOps
chck
2
5.5k
論文読み会 / GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models
chck
0
25
論文読み会 / On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models
chck
0
10
論文読み会 / GUIGAN: Learning to Generate GUI Designs Using Generative Adversarial Networks
chck
0
18
機械学習開発のためのコンテナ入門 / Container for ML
chck
0
910
Web系企業研究所における研究開発を加速させるエコシステム / Ecosystem accelerates our R&D in CyberAgent AI Lab
chck
0
140
Other Decks in Research
See All in Research
業界横断 副業・兼業者の実態調査
fkske
0
210
Galileo: Learning Global & Local Features of Many Remote Sensing Modalities
satai
3
130
[輪講] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
nk35jk
2
740
[CV勉強会@関東 CVPR2025] VLM自動運転model S4-Driver
shinkyoto
2
410
Delta Airlines® Customer Care in the U.S.: How to Reach Them Now
bookingcomcustomersupportusa
PRO
0
100
AIによる画像認識技術の進化 -25年の技術変遷を振り返る-
hf149
7
3.8k
Adaptive fusion of multi-modal remote sensing data for optimal sub-field crop yield prediction
satai
3
230
数理最適化と機械学習の融合
mickey_kubo
15
9.1k
最適決定木を用いた処方的価格最適化
mickey_kubo
4
1.8k
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
130
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization
satai
3
280
NLP2025参加報告会 LT資料
hargon24
1
340
Featured
See All Featured
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
110
19k
The Pragmatic Product Professional
lauravandoore
36
6.8k
Facilitating Awesome Meetings
lara
54
6.5k
Practical Orchestrator
shlominoach
190
11k
The Invisible Side of Design
smashingmag
301
51k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
182
54k
Docker and Python
trallard
45
3.5k
Designing for Performance
lara
610
69k
How to Think Like a Performance Engineer
csswizardry
25
1.8k
Transcript
User-guided Hierarchical Attention Network for Multi-modal Social Image Popularity Prediction
Yuki Iwazaki@AI Lab Wei Zhang, Wen Wang, Jun Wang, Hongyuan Zha East China Normal University, Georgia Institute of Technology, JD.com
どっちがView稼ぎそうか
Potential予測と重要点可視化
なんでこれ ◉ 業務: Media Ads x Multimodal x Engagements ◦
Facebook/Twitter/LINE広告の画像/文章/配信設定からCTR予測 ◉ これ: Social Media x Multimodal x Popularity ◦ Flickrの画像/文章/User表現からView予測
なんでこれ ◉ 業務: Media Ads x Multimodal x Engagements ◦
Facebook/Twitter/LINE広告の画像/文章/配信設定からCTR予測 ◉ これ: Social Media x Multimodal x Popularity ◦ Flickrの画像/文章/User表現からView予測
TL;DR ◉ SNSに投稿した画像のView数を予測 ◉ Image/Text/Userをうまく学習する高精度な手法を提案 ◉ 予測に重要な単語、画像部位の可視化 ◉ FlickrをCrawlingしてデータ作ったから皆使ってね
3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge
- 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???)
3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge
- 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???) 👉
3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge
- 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???) 👉
Flickr Popularity Prediction Post# User# Categories# Months Avg(Title len.) Tags#
POIs# Avg. Views 340K 80K 11 16 26 669 103K 306 Winners Talkと思いきや主催者側
こんなデータ 1 { ‘uid’: ‘37810@N60’, ‘pid’: ‘565202’, ‘category’: ‘Fasion’, ‘subcategory’:
‘Girls,Fasion’, ‘concept’: ‘skirt’, ‘pathalias’: ‘None’, ‘ispublic’: ‘1’, ‘mediastatus’: ‘ready’, ‘title’: ‘2016-03-07 17.54.15’, ‘mediatype’: ‘photo’, ‘alltags’: ‘orange sexy philadelphia blonde hockey sweater’, ‘postdate’: ‘1457273948’, ‘latitude’: ‘0’, ‘longitude’: ‘0’, ‘geoaccuracy’: ‘0’ } { ‘views’: ‘876’, ‘favs’: ‘1’, ‘comments’: ‘0’ } popularity score: 3.2
こんなデータ 2 { ‘uid’: ‘25893@N22’, ‘pid’: ‘565381’, ‘category’: ‘Whether&Season’, ‘subcategory’:
‘Raining’, ‘concept’: ‘puddle’, ‘pathalias’: ‘hoo_nose_68’, ‘ispublic’: ‘1’, ‘mediastatus’: ‘ready’, ‘title’: ‘Tristesse at the Federal Chancellery’, ‘mediatype’: ‘photo’, ‘alltags’: ‘blackandwhite bw reflection berlin wet rain symmetry’, ‘postdate’: ‘1457273948’, ‘latitude’: ‘52.520213’, ‘longitude’: ‘13.373097’, ‘geoaccuracy’: ‘16’ } { ‘views’: ‘630’, ‘favs’: ‘8’, ‘comments’: ‘0’ } popularity score: 2.3
問題設定 Visual Textual User Popularity Score 画像(i)投稿時の情報からPopularity Score(y)を予測
Popularity Score days views
Proposed Methodology 提案手法 1
User-guided Hierarchical Attention Network(UHAN)
How to Representation 各入力の説明 2
Image Representation ◉ Input image 448x448 ◉ ImageNet Pre-trained VGG16
w/o top-> 14x14x512 448x448
Text Representation ◉ Input text max 50 words ◉ one-hot
embedding -> LSTM -> 50x512
User Representation ◉ one-hot per user ID -> 謎のUser Embedding->
512 ◉ 後述するinter-attentionで嗜好等のUser表現をGet
User-guided Hierarchical Attention Mechanism Attention機構の説明 3
intra-attention for Vitual
画像のどこに注目すればいいかの指標 画像領域mに対してUser, Text表現の関連度を計算 intra-attention for Vitual Visual 画像領域mの Importance Score
User Textual
intra-attention for Textual
intra-attention for Textual どの単語に注目すればいいかの指標 単語tに対してUser, Visual表現の関連度を計算 単語tの Importance Score Visual
User Textual
User-guided inter-attention
User-guided inter-attention UserとImageの関連性 UserとTextの関連性
Experiment 実験 4
実験で確かめたいこと ◉ Q1. 既存手法と比べて性能どうなのか ◉ Q2. VisualとTextualのModalityは効果的か ◉ Q3. 提案手法のどのパーツが予測に貢献したか
データセット ◉ Flickr179K Datasetを構築 ◉ 英語Post以外削除, 単語に分割, 小文字化, 頻度5回以下の単語削除, 5単語以下のPost削除
◉ 時系列順で最初の70%をTraining用 ◦ RandomよりRealだろうとのこと ◉ 残り10%をValidation用, 20%をTest用 ◉ 十分に投稿してる128Userを選定
評価指標
戦わせる既存手法 MultimodalやAttention機構を持つ手法を選択 ◉ HisAve. ◦ 今までのPopularityの平均を取るだけ ◉ SVR. ◦ 人手で特徴設計,
色, TF-IDF, W2V色々試してbestを選択 ◉ DMF. ◦ VGG+LSTMの出力のvector横に繋げてDNN. by Esty ◉ DualAtt. ◦ 提案手法からUser表現を抜いたDNN w/ Att. by NAVER
Experiment Results 実験結果 5
Q1. 既存手法と比べてどうなのか 提案手法が最高 . User特徴は大事
Q2. VisualとTextualのModalityは効果的か どっちも大事だけど特にテキストが効く
Q3. 提案手法のどのパーツが予測に貢献したか 全部入りが一番良い
Attentionの可視化 提案手法は Attentionもくっきり
Attentionの可視化 - 雀と蝶は良い例 - 重要箇所を可視化できてる - 模様は悪い例 - 画像中に理解しやすい物体がない -
美学的指標を入れると改善しそう
Attentionの可視化 - 異なるスタイルの2User - A...人間多め - AのAttentionは人間を見れている - 最後の飛行機みたいに自分らしくないことするとだめ -
B...人間少なめ物体多め - Bの飛行機はくっきり特徴が取れている - 普段からそれっぽい画像を投稿しているため - PersonalizedされたAttentionを算出できる
まとめ ◉ SNSに投稿した画像のView数を予測 ◉ Image/Text/Userをうまく学習する高精度な手法を提案 ◉ 予測に重要な単語、画像部位の可視化 ◉ FlickrをCrawlingしてデータ作ったから皆使ってね
感想 ◉ Attentionを可視化するだけで画像・テキストそれぞれ人気 度に効く特徴が見えて良い ◉ 広告にもそのまま使えそう ◦ User特徴の表現力次第なので広告主をどうデザインできるか
Any questions ? You can find me at ◉ @chck
◉
[email protected]
Thanks! 42
Feedback ◉ Attentionとは ◦ 出力に影響を与える入力系列の重要度を割合で計算して おきvectorに掛け合わせて使う機構 ◉ Attentionの可視化を見て何を判断するのか ◦ Embeddingの確認,
+αなので定量的なものではない ◦ エラー分析の判断材料にはなると思う ◉ MSE, MAEの2指標ある理由 ◦ 予測の分散への厳しさの程度 ◉ 128Usersしか使ってないところが肝 ◦ 実データはもっとlong tailでcold startなので難しい
実装詳細 ◉ 言語処理 ◦ 50単語以上は切捨, Embedding, LSTM共に512次元 ◉ 画像処理 ◦
入力は196x512 ◉ User表現 ◦ 512次元 ◉ Keras ◦ Adam, batch_size: 128, Early Stopping