Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 / User-guided Hierarchical Attention Netw...
Search
chck
August 31, 2018
Research
0
10
論文読み会 / User-guided Hierarchical Attention Network for Multi-modal Social Image Popularity Prediction
社内論文読み会、PaperFridayでの発表資料です
chck
August 31, 2018
Tweet
Share
More Decks by chck
See All by chck
CyberAgent AI Lab研修 / Container for Research
chck
1
2.1k
CyberAgent AI Lab研修 / Code Review in a Team
chck
3
2.1k
論文読み会 / Socio-Technical Anti-Patterns in Building ML-Enabled Software: Insights from Leaders on the Forefront
chck
0
67
CyberAgent AI事業本部MLOps研修Container編 / Container for MLOps
chck
3
5.7k
論文読み会 / GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models
chck
0
47
論文読み会 / On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models
chck
0
26
論文読み会 / GUIGAN: Learning to Generate GUI Designs Using Generative Adversarial Networks
chck
0
38
機械学習開発のためのコンテナ入門 / Container for ML
chck
0
950
Web系企業研究所における研究開発を加速させるエコシステム / Ecosystem accelerates our R&D in CyberAgent AI Lab
chck
0
150
Other Decks in Research
See All in Research
AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking
yuukit
2
940
Can AI Generated Ambrotype Chain the Aura of Alternative Process? In SIGGRAPH Asia 2024 Art Papers
toremolo72
0
120
競合や要望に流されない─B2B SaaSでミニマム要件を決めるリアルな取り組み / Don't be swayed by competitors or requests - A real effort to determine minimum requirements for B2B SaaS
kaminashi
0
550
Combining Deep Learning and Street View Imagery to Map Smallholder Crop Types
satai
3
460
Agentic AI フレームワーク戦略白書 (2025年度版)
mickey_kubo
1
110
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
2
260
SREはサイバネティクスの夢をみるか? / Do SREs Dream of Cybernetics?
yuukit
3
330
Tiaccoon: Unified Access Control with Multiple Transports in Container Networks
hiroyaonoe
0
400
Satellites Reveal Mobility: A Commuting Origin-destination Flow Generator for Global Cities
satai
3
390
一般道の交通量減少と速度低下についての全国分析と熊本市におけるケーススタディ(20251122 土木計画学研究発表会)
trafficbrain
0
120
国際論文を出そう!ICRA / IROS / RA-L への論文投稿の心構えとノウハウ / RSJ2025 Luncheon Seminar
koide3
13
6.9k
その推薦システムの評価指標、ユーザーの感覚とズレてるかも
kuri8ive
1
300
Featured
See All Featured
So, you think you're a good person
axbom
PRO
2
1.9k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
380
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Side Projects
sachag
455
43k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
First, design no harm
axbom
PRO
2
1.1k
Design in an AI World
tapps
0
130
HDC tutorial
michielstock
1
330
How to make the Groovebox
asonas
2
1.9k
Producing Creativity
orderedlist
PRO
348
40k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.1k
SEO for Brand Visibility & Recognition
aleyda
0
4.2k
Transcript
User-guided Hierarchical Attention Network for Multi-modal Social Image Popularity Prediction
Yuki Iwazaki@AI Lab Wei Zhang, Wen Wang, Jun Wang, Hongyuan Zha East China Normal University, Georgia Institute of Technology, JD.com
どっちがView稼ぎそうか
Potential予測と重要点可視化
なんでこれ ◉ 業務: Media Ads x Multimodal x Engagements ◦
Facebook/Twitter/LINE広告の画像/文章/配信設定からCTR予測 ◉ これ: Social Media x Multimodal x Popularity ◦ Flickrの画像/文章/User表現からView予測
なんでこれ ◉ 業務: Media Ads x Multimodal x Engagements ◦
Facebook/Twitter/LINE広告の画像/文章/配信設定からCTR予測 ◉ これ: Social Media x Multimodal x Popularity ◦ Flickrの画像/文章/User表現からView予測
TL;DR ◉ SNSに投稿した画像のView数を予測 ◉ Image/Text/Userをうまく学習する高精度な手法を提案 ◉ 予測に重要な単語、画像部位の可視化 ◉ FlickrをCrawlingしてデータ作ったから皆使ってね
3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge
- 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???)
3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge
- 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???) 👉
3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge
- 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???) 👉
Flickr Popularity Prediction Post# User# Categories# Months Avg(Title len.) Tags#
POIs# Avg. Views 340K 80K 11 16 26 669 103K 306 Winners Talkと思いきや主催者側
こんなデータ 1 { ‘uid’: ‘37810@N60’, ‘pid’: ‘565202’, ‘category’: ‘Fasion’, ‘subcategory’:
‘Girls,Fasion’, ‘concept’: ‘skirt’, ‘pathalias’: ‘None’, ‘ispublic’: ‘1’, ‘mediastatus’: ‘ready’, ‘title’: ‘2016-03-07 17.54.15’, ‘mediatype’: ‘photo’, ‘alltags’: ‘orange sexy philadelphia blonde hockey sweater’, ‘postdate’: ‘1457273948’, ‘latitude’: ‘0’, ‘longitude’: ‘0’, ‘geoaccuracy’: ‘0’ } { ‘views’: ‘876’, ‘favs’: ‘1’, ‘comments’: ‘0’ } popularity score: 3.2
こんなデータ 2 { ‘uid’: ‘25893@N22’, ‘pid’: ‘565381’, ‘category’: ‘Whether&Season’, ‘subcategory’:
‘Raining’, ‘concept’: ‘puddle’, ‘pathalias’: ‘hoo_nose_68’, ‘ispublic’: ‘1’, ‘mediastatus’: ‘ready’, ‘title’: ‘Tristesse at the Federal Chancellery’, ‘mediatype’: ‘photo’, ‘alltags’: ‘blackandwhite bw reflection berlin wet rain symmetry’, ‘postdate’: ‘1457273948’, ‘latitude’: ‘52.520213’, ‘longitude’: ‘13.373097’, ‘geoaccuracy’: ‘16’ } { ‘views’: ‘630’, ‘favs’: ‘8’, ‘comments’: ‘0’ } popularity score: 2.3
問題設定 Visual Textual User Popularity Score 画像(i)投稿時の情報からPopularity Score(y)を予測
Popularity Score days views
Proposed Methodology 提案手法 1
User-guided Hierarchical Attention Network(UHAN)
How to Representation 各入力の説明 2
Image Representation ◉ Input image 448x448 ◉ ImageNet Pre-trained VGG16
w/o top-> 14x14x512 448x448
Text Representation ◉ Input text max 50 words ◉ one-hot
embedding -> LSTM -> 50x512
User Representation ◉ one-hot per user ID -> 謎のUser Embedding->
512 ◉ 後述するinter-attentionで嗜好等のUser表現をGet
User-guided Hierarchical Attention Mechanism Attention機構の説明 3
intra-attention for Vitual
画像のどこに注目すればいいかの指標 画像領域mに対してUser, Text表現の関連度を計算 intra-attention for Vitual Visual 画像領域mの Importance Score
User Textual
intra-attention for Textual
intra-attention for Textual どの単語に注目すればいいかの指標 単語tに対してUser, Visual表現の関連度を計算 単語tの Importance Score Visual
User Textual
User-guided inter-attention
User-guided inter-attention UserとImageの関連性 UserとTextの関連性
Experiment 実験 4
実験で確かめたいこと ◉ Q1. 既存手法と比べて性能どうなのか ◉ Q2. VisualとTextualのModalityは効果的か ◉ Q3. 提案手法のどのパーツが予測に貢献したか
データセット ◉ Flickr179K Datasetを構築 ◉ 英語Post以外削除, 単語に分割, 小文字化, 頻度5回以下の単語削除, 5単語以下のPost削除
◉ 時系列順で最初の70%をTraining用 ◦ RandomよりRealだろうとのこと ◉ 残り10%をValidation用, 20%をTest用 ◉ 十分に投稿してる128Userを選定
評価指標
戦わせる既存手法 MultimodalやAttention機構を持つ手法を選択 ◉ HisAve. ◦ 今までのPopularityの平均を取るだけ ◉ SVR. ◦ 人手で特徴設計,
色, TF-IDF, W2V色々試してbestを選択 ◉ DMF. ◦ VGG+LSTMの出力のvector横に繋げてDNN. by Esty ◉ DualAtt. ◦ 提案手法からUser表現を抜いたDNN w/ Att. by NAVER
Experiment Results 実験結果 5
Q1. 既存手法と比べてどうなのか 提案手法が最高 . User特徴は大事
Q2. VisualとTextualのModalityは効果的か どっちも大事だけど特にテキストが効く
Q3. 提案手法のどのパーツが予測に貢献したか 全部入りが一番良い
Attentionの可視化 提案手法は Attentionもくっきり
Attentionの可視化 - 雀と蝶は良い例 - 重要箇所を可視化できてる - 模様は悪い例 - 画像中に理解しやすい物体がない -
美学的指標を入れると改善しそう
Attentionの可視化 - 異なるスタイルの2User - A...人間多め - AのAttentionは人間を見れている - 最後の飛行機みたいに自分らしくないことするとだめ -
B...人間少なめ物体多め - Bの飛行機はくっきり特徴が取れている - 普段からそれっぽい画像を投稿しているため - PersonalizedされたAttentionを算出できる
まとめ ◉ SNSに投稿した画像のView数を予測 ◉ Image/Text/Userをうまく学習する高精度な手法を提案 ◉ 予測に重要な単語、画像部位の可視化 ◉ FlickrをCrawlingしてデータ作ったから皆使ってね
感想 ◉ Attentionを可視化するだけで画像・テキストそれぞれ人気 度に効く特徴が見えて良い ◉ 広告にもそのまま使えそう ◦ User特徴の表現力次第なので広告主をどうデザインできるか
Any questions ? You can find me at ◉ @chck
◉
[email protected]
Thanks! 42
Feedback ◉ Attentionとは ◦ 出力に影響を与える入力系列の重要度を割合で計算して おきvectorに掛け合わせて使う機構 ◉ Attentionの可視化を見て何を判断するのか ◦ Embeddingの確認,
+αなので定量的なものではない ◦ エラー分析の判断材料にはなると思う ◉ MSE, MAEの2指標ある理由 ◦ 予測の分散への厳しさの程度 ◉ 128Usersしか使ってないところが肝 ◦ 実データはもっとlong tailでcold startなので難しい
実装詳細 ◉ 言語処理 ◦ 50単語以上は切捨, Embedding, LSTM共に512次元 ◉ 画像処理 ◦
入力は196x512 ◉ User表現 ◦ 512次元 ◉ Keras ◦ Adam, batch_size: 128, Early Stopping