Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アノテーションのバイアス排除に関する2020年代の研究動向
Search
kuri8ive
July 20, 2022
Research
1
1.1k
アノテーションのバイアス排除に関する2020年代の研究動向
社内LT会で発表した資料です。
内容はアノテーションのバイアス排除に関する近年の研究をざっくり紹介したものです。
kuri8ive
July 20, 2022
Tweet
Share
More Decks by kuri8ive
See All by kuri8ive
推薦結果への説明付加はいつどんなものが嬉しいか
kuri8ive
1
230
広告設定をより制御できるようになるとユーザーはどう反応しどう感じるか
kuri8ive
1
290
説明の偏り・見せ方が推薦結果の選択にどう影響するか
kuri8ive
3
860
正確な推薦は無条件に信頼できるか?
kuri8ive
3
1k
セレンディピティはトキメキの夢を見せるか?
kuri8ive
1
1.2k
"2 - 4時は見られません"を深掘りしてみる
kuri8ive
0
180
論文紹介/5 papers at 75. Bias and Ethics (CHI 2022)
kuri8ive
0
340
論文紹介/Using Web Data to Reveal 22-Year History of Sneaker Designs (TheWebConf 2022)
kuri8ive
1
670
論文紹介 / It's About Time: A View of Crowdsourced Data Before and During the Pandemic (CHI 2021)
kuri8ive
0
370
Other Decks in Research
See All in Research
20240209 データを肴に熊本の交通を考える会「車1割削減、渋滞半減、公共交通2倍」をめざし世界に学ぼう
trafficbrain
0
920
第14回対話システムシンポジウム EMNLP 2023 参加報告
atsumoto
0
170
People Driven Transformation / 人が起点の、社会の変え方
dmattsun
0
160
Deep State Space Models 101 / Mamba
kurita
9
3.7k
僕たちがグラフニューラルネットワークを学ぶ理由
joisino
21
8.1k
My Journey as a UX Researcher
aranciap
0
1.2k
一般化ランダムフォレストの理論と統計的因果推論への応用
tomoshige_n
10
1.8k
10-ot-generic-bio.pdf
gpeyre
0
150
LiDARセキュリティ最前線
kentaroy47
0
290
MegaParticles: GPUを利用したStein Particle Filterによる点群6自由度姿勢推定
koide3
1
570
SSII2023 医療支援における画像処理研究の動向と展望
moda0
0
120
FMP L3 Year 1 Project Proposal
haiinya
0
150
Featured
See All Featured
Designing with Data
zakiwarfel
96
4.8k
What's new in Ruby 2.0
geeforr
337
31k
Debugging Ruby Performance
tmm1
70
11k
Design by the Numbers
sachag
274
18k
[RailsConf 2023] Rails as a piece of cake
palkan
28
4k
The Invisible Side of Design
smashingmag
294
49k
Unsuck your backbone
ammeep
664
57k
Embracing the Ebb and Flow
colly
80
4.2k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
18
7k
Building Applications with DynamoDB
mza
88
5.6k
Learning to Love Humans: Emotional Interface Design
aarron
267
39k
ParisWeb 2013: Learning to Love: Crash Course in Emotional UX Design
dotmariusz
104
6.7k
Transcript
アノテーションのバイアス排除に関する 2020年代の研究動向 栗本真太郎(@kuri8ive) 2022年7月20日 2022年夏の Official Account 開発室 LT大会 Ad
Data Science Team
2/19 「いかにバイアスを排除し アノテーションの質を高めるか?」に 関連する近年の研究をざっくり紹介するもの これはなに
バイアス排除の難しさを感じさせる研究群 CSCW'20, SIGIR'20, HCOMP'20, ICCV'21, FaccT'22, NAACL'22
4/19 えらい人の都合 in データ 多くの研究はアノテーターの主観に焦点を当てているが本当にそれが問題? → 上位にいる他者の関心、価値、優先順位に深く影響されていた Between Subjectivity and
Imposition: Power Dynamics in Data Annotation for Computer Vision (CSCW'20)
5/19 素人でも玄人並みのアノテーションは可能? 政治的発言の誤報識別タスクで概ね専門家と類似したアノテーション結果 また、ワーカーのグループ化が有用であることも示唆 → ただし、暗黙的な政治的志向が真偽の判断品質に影響するので注意 (明示的な政治スタンスとは関係なく) Can The Crowd
Identify Misinformation Objectively? The Effects of Judgment Scale and Assessor's Background (SIGIR'20)
6/19 違う視点を知ればバイアスは軽減できる? 違う視点を持つ人と一緒にアノテーションをしてもあまり変化はなし → 単に違う視点を知るだけではバイアス軽減には至らない Does Exposure to Diverse Perspectives
Mitigate Biases in Crowdwork? An Explorative Study (HCOMP'20)
7/19 肌の色が違えばいろいろ違ったものに 画像に存在するバイアスを「肌の色が明るい人 or 暗い人」で調査 → キャプションの正確さ、感情や単語の選択に違い また、キャプションシステムが最新かどうかで大きな差 Understanding and
Evaluating Racial Biases in Image Captioning (ICCV'21)
8/19 うーんたぶんこれは真実かな(N回目) 公開されているクラウドソーシングデータの系統的探索分析を実施 → 認知バイアスのほか、科学に対する信念が影響する可能性を示唆 また、一般的に真実性を過大評価する傾向 The Effects of Crowd
Worker Biases in Fact-Checking Tasks (FaccT'22)
9/19 言論の有害性の評価において アノテーターのアイデンティティや信条が強く影響 → 特に、保守的だったり人種差別的信念のスコアが高いアノテーターは 黒人へのヘイトスピーチを無害と評価する一方、アフリカ英語を有害と評価 "標準"じゃないのは有害? Annotators with Attitudes:
How Annotator Beliefs And Identities Bias Toxic Language Detection (NAACL'22)
バイアス排除に挑戦している研究群 VLDB'20, CVPR'21, IJCAI'21, NerIPS'21, CHIIR'22, IJCV'22, CHI'22, ICML'22
11/19 MCMCに基づく類似アイテムの混同検出手法を提案し 品質が改善されることを実験で示した → 単純な警告であっても早期に混同のリスクを警告することで 大幅に改善できることも示した いつ頭こんがらがったか教えて〜 Detecting and Preventing
Confused Labels in Crowdsourced Data (VLDB'20)
12/19 GANを用いて現実的な画像を生成したのち、潜在空間において摂動を与える → 各保護属性に対してバランスの取れた学習データを生成 GANで公平さの補正をかける Fair Attribute Classification Through Latent
Space De-Biasing (CVPR'21)
13/19 ラベルに加えて、アノテーターとタスクの値も同時にEMアルゴリズムで推論 → アノテーターが多い、確証バイアスが大きい場合などでより正確に推測 より確証バイアスを考慮した回答統合 Accounting for Confirmation Bias in
Crowdsourced Label Aggregation (IJCAI'21)
14/19 ラベルを定義する固有の属性とバイアスを引き起こす周辺属性を分離し、 多様な固有属性サンプルを合成 → 各アイテムの非本質的な部分で学習してしまうことを防ぐ 余分な情報をあえてつける Learning Debiased Representation via
Disentangled Feature Augmentation (NeurIPS'21)
15/19 Webページの質判断にどういった要因が影響するか → 時間帯や曜日が大きく影響することを示し 影響を軽減するための方策を指南 アノテーションに効いてくるバイオリズム The Crowd is Made
of People: Observations from Large-Scale Crowd Labelling (CHIIR'22)
16/19 (1)オブジェクト、(2)人物、(3)地理の3つの次元に沿って 潜在的な偏りを可視化するツールを開発 → 「ではどうすればよいか?」も提案し、早期のバイアス軽減へ どれくらい偏ってるか、見れば分かるよね? REVISE: A Tool for
Measuring and Mitigating Bias in Visual Datasets (IJCV'22)
17/19 逐次的な意思決定において、 アンカリングの影響を捕捉し提示アイテムを動的に決定する手法を提案 → リアルタイムでバイアスを軽減しながらの評価収集を実現 さっき見たものの影響をどけたい AI-Moderated Decision-Making: Capturing and
Balancing Anchoring Bias in Sequential Decision Tasks (CHI'22)
18/19 画像内の顔に難読化処理を施す → 人種等の(不必要な)影響を軽減しつつ、 難読化済みデータで学習したモデルの性能低下は1%以下程度に抑えられた XX人がいるから〇〇を避けるために A Study of Face
Obfuscation in ImageNet (ICML'22)
完全じゃなくともバイアスを踏まえたデータ収集をやっていき https://alu.jp/series/僕たちがやりました/crop/HVt9jvtSrrrYDT8TbZ27