Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 / Counterfactual VQA: A Cause-Effect Look...
Search
chck
August 16, 2021
Research
0
47
論文読み会 / Counterfactual VQA: A Cause-Effect Look at Language Bias
社内論文読み会、PaperFridayでの発表資料です
chck
August 16, 2021
Tweet
Share
More Decks by chck
See All by chck
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
6
4.1k
CyberAgent AI Lab研修 / Container for Research
chck
1
2.3k
CyberAgent AI Lab研修 / Code Review in a Team
chck
3
2.2k
論文読み会 / Socio-Technical Anti-Patterns in Building ML-Enabled Software: Insights from Leaders on the Forefront
chck
0
100
CyberAgent AI事業本部MLOps研修Container編 / Container for MLOps
chck
3
5.9k
論文読み会 / GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models
chck
0
67
論文読み会 / On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models
chck
0
44
論文読み会 / GUIGAN: Learning to Generate GUI Designs Using Generative Adversarial Networks
chck
0
51
機械学習開発のためのコンテナ入門 / Container for ML
chck
0
970
Other Decks in Research
See All in Research
LLM-jp-3 and beyond: Training Large Language Models
odashi
1
790
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
6
1.4k
Φ-Sat-2のAutoEncoderによる情報圧縮系論文
satai
3
170
2026年1月の生成AI領域の重要リリース&トピック解説
kajikent
0
860
「行ける・行けない表」による地域公共交通の性能評価
bansousha
0
130
Satellites Reveal Mobility: A Commuting Origin-destination Flow Generator for Global Cities
satai
3
670
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
200
はじまりの クエスチョンブック —余暇と豊かさにあふれた社会とは?
culturaltransition
PRO
0
160
Proposal of an Information Delivery Method for Electronic Paper Signage Using Human Mobility as the Communication Medium / ICCE-Asia 2025
yumulab
0
260
SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
satai
3
670
台湾モデルに学ぶ詐欺広告対策:市民参加の必要性
dd2030
0
280
ペットのかわいい瞬間を撮影する オートシャッターAIアプリへの スマートラベリングの適用
mssmkmr
0
390
Featured
See All Featured
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
150
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Designing Experiences People Love
moore
143
24k
How GitHub (no longer) Works
holman
316
150k
Done Done
chrislema
186
16k
Rails Girls Zürich Keynote
gr2m
96
14k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Balancing Empowerment & Direction
lara
5
960
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
320
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
330
Believing is Seeing
oripsolob
1
94
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
490
Transcript
Counterfactual VQA: A Cause-Effect Look at Language Bias 21/08/16 PaperFriday,
Yuki Iwazaki@AI Lab
2 Point: 画像とテキストを両方扱うタスクで、 フルモデルとテキストのみモデルの予測分布間の差分を利用した テキストのバイアス除去法を提案 CVPR 2021: acceptance rate 23.7%
Authors: Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, Xian-Sheng Hua, Ji-Rong Wen 選定理由: - Multimodal dataの偏りに悩むことが多い - Debiasに興味がある
Introduction 3
Debiased Visual Question Answering ◂ Visual Question Answering ◂ Answer
the question based on the image 4 Q: Do you see a player? A: Yes. Q: What sports is he playing? A: Tennis.
Debiased Visual Question Answering ◂ Dataset bias in VQA: language
bias 5 (VQA v1 dataset) Q: What sports is … ? Q: How many … ? language priors poor ODD generalization [Goyal, CVPR2017]
Related Work 6
Debiasing Strategies in VQA ◂ VQA-CP...VQAモデルの汎化性を評価するためのdataset ◂ train/testで質問タイプ毎に回答の分布が異なるように ◂ VQAの言語バイアス低減は大きく3種類
◂ 1.視覚情報の補強 ◂ 2.言語情報の弱化 ◂ 3.明示的/暗黙的なData Augmentation 7
Debiasing Strategies in VQA ◂ VQA-CP...VQAモデルの汎化性を評価するためのdataset ◂ train/testで質問タイプ毎に回答の分布が異なるように ◂ VQAの言語バイアス低減は大きく3種類
◂ 1.視覚情報の補強 ◂ 2.言語情報の弱化 ◂ 3.明示的/暗黙的なData Augmentation 8
9
10 Fact: 観測されるデータには常にバイアスがかかっている Challenge: 偏った学習をしていても偏りのない推論ができるか ?
Preliminaries 11
Causal Graph 12 変数間の因果関係を表すグラフ 原因Xが効果Yに直接影響を与えている場合、 X → Yと表す 原因Xが中間変数Mを介して 効果Yに間接的に影響を与えている場合、
X → M → Yと表す
Causal Graph 13 変数間の因果関係を表すグラフ 原因Xが効果Yに直接影響を与えている場合、 X → Yと表す 原因Xが中間変数Mを介して 効果Yに間接的に影響を与えている場合、
X → M → Yと表す コロナ罹患 年齢 ワクチン
Causal effects 異なる方策の介入(treatment)を受けた同一対象の 2つの世界線の結果を擬似的に比較したもの 14 treatment群(e.g.ワクチンあり) control群(e.g.ワクチンなし) Yに対するX=xのtotal effect 中間変数Mが介入しない状態での
XのYへのnatural direct effect. X=x*からX=xに変化したときのYの増加
Cause-Effect Look at VQA 15
16
17
18
Causal Graph for VQA ◂ Causal relations in VQA ◂
A→B: AはBを引き起こす ◂ VQA: VとQはAを引き起こす 19
Causal Graph for VQA 20 ◂ Causal relations in VQA
◂ A→B: AはBを引き起こす ◂ VQA: VとQはAを引き起こす ◂ Direct path: Q→A, V→A ◂ Uni-modal alignment, direct effect
Causal Graph for VQA 21 ◂ Causal relations in VQA
◂ A→B: AはBを引き起こす ◂ VQA: VとQはAを引き起こす ◂ Direct path: Q→A, V→A ◂ Uni-modal alignment, direct effect ◂ Indirect path: V,Q→K→A ◂ Multi-modal reasoning, indirect effect
Ours: Cause-Effect View on VQA 22 Total Effect Nature Direct
Effect Total Indirect Effect VQAにおける因果効果は2シナリオ間( (1), (2) )の比較で導出可能
Implementation: Parameterization 23 V,Q,Kが与えられたときの目的変数の予測スコア Y_{v,q}:
Implementation: Parameterization 24 質問Qが与えられる 与えられない 画像Vが与えられる 与えられない 画像Vと質問Qが与えられる どちらかが与えられない
Implementation: Fusion Strategies 25
Implementation: Training 26
Implementation: Inference 27
Conventional Models 30
Experiments 31
Experiments ◂ VQA-CP dataset ◂ train/testの回答分布が大きく異なる場合に モデルの頑健性を評価するためのdataset ◂ VQA v2
dataset(re-balanced v1) ◂ VQA v1の反省を活かし分布偏りを改善したdataset ◂ metric: Accuracy ◂ baseline ◂ Stacked Attention Network (SAN) ◂ Bottom-up and Top-down Attention (UpDn) ◂ a simplified MUREL (S-MRL) 32
Quantitative Results 33
Quantitative Results 34
Ablation Study 35 baseline with CF-VQAによりbaselineより2%-5%の性能改善
Qualitative Results 37
Qualitative Results 38 Q: Is this room large or small?
Q: What type of flowers are theses? language context “large or small” “what type”
Qualitative Results 39
Conclusion 40
Conclusion ◂ VQAの言語バイアスを軽減するCF-VQAを提案 ◂ 総合効果から言語効果を引き算 ◂ 最近のdebias系の研究は提案手法で統一可能 ◂ 因果効果に基づいて1つのパラメータの追加で baselineを改善
◂ 頑健性とバイアス軽減のバランスが課題 41
Comment ◂ 斎藤さん、安井さん、成田さん、Susan Athey界隈の 有用な記事が無限に出てきました🙏 ◂ 本買ってもう少し勉強します 42
43 Thanks! Any questions? You can find me at: ◂
@chck ◂ #times_chck ◂
[email protected]