Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アノテーションのバイアス排除に関する2020年代の研究動向
Search
kuri8ive
July 20, 2022
Research
2
1.3k
アノテーションのバイアス排除に関する2020年代の研究動向
社内LT会で発表した資料です。
内容はアノテーションのバイアス排除に関する近年の研究をざっくり紹介したものです。
kuri8ive
July 20, 2022
Tweet
Share
More Decks by kuri8ive
See All by kuri8ive
生成AI・AIエージェント時代、データサイエンティストは何をする人なのか?そして、今学生であるあなたは何を学ぶべきか?
kuri8ive
3
2.3k
その推薦システムの評価指標、ユーザーの感覚とズレてるかも
kuri8ive
1
280
利用シーンを意識した推薦システム〜SpotifyとAmazonの事例から〜
kuri8ive
1
310
精度を無視しない推薦多様化の評価指標
kuri8ive
1
560
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
320
"多様な推薦"はユーザーの目にどう映るか
kuri8ive
4
660
LLMとの共同執筆は文章の多様性を減らすか?
kuri8ive
4
1.2k
推薦結果への説明付加はいつどんなものが嬉しいか
kuri8ive
2
410
広告設定をより制御できるようになるとユーザーはどう反応しどう感じるか
kuri8ive
2
470
Other Decks in Research
See All in Research
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
15
17k
When Learned Data Structures Meet Computer Vision
matsui_528
1
1.5k
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
280
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
270
論文紹介:Safety Alignment Should be Made More Than Just a Few Tokens Deep
kazutoshishinoda
0
150
ドメイン知識がない領域での自然言語処理の始め方
hargon24
1
220
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
400
Pythonでジオを使い倒そう! 〜それとFOSS4G Hiroshima 2026のご紹介を少し〜
wata909
0
1.2k
超高速データサイエンス
matsui_528
1
320
Agentic AI Era におけるサプライチェーン最適化
mickey_kubo
0
110
SREのためのテレメトリー技術の探究 / Telemetry for SRE
yuukit
13
2.6k
さまざまなAgent FrameworkとAIエージェントの評価
ymd65536
1
360
Featured
See All Featured
What the history of the web can teach us about the future of AI
inesmontani
PRO
0
370
Typedesign – Prime Four
hannesfritz
42
2.9k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
130
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
SEO for Brand Visibility & Recognition
aleyda
0
4.1k
Navigating Weather and Climate Data
rabernat
0
46
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
0
1k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
72
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
48
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
1.9k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
290
Transcript
アノテーションのバイアス排除に関する 2020年代の研究動向 栗本真太郎(@kuri8ive) 2022年7月20日 2022年夏の Official Account 開発室 LT大会 Ad
Data Science Team
2/19 「いかにバイアスを排除し アノテーションの質を高めるか?」に 関連する近年の研究をざっくり紹介するもの これはなに
バイアス排除の難しさを感じさせる研究群 CSCW'20, SIGIR'20, HCOMP'20, ICCV'21, FaccT'22, NAACL'22
4/19 えらい人の都合 in データ 多くの研究はアノテーターの主観に焦点を当てているが本当にそれが問題? → 上位にいる他者の関心、価値、優先順位に深く影響されていた Between Subjectivity and
Imposition: Power Dynamics in Data Annotation for Computer Vision (CSCW'20)
5/19 素人でも玄人並みのアノテーションは可能? 政治的発言の誤報識別タスクで概ね専門家と類似したアノテーション結果 また、ワーカーのグループ化が有用であることも示唆 → ただし、暗黙的な政治的志向が真偽の判断品質に影響するので注意 (明示的な政治スタンスとは関係なく) Can The Crowd
Identify Misinformation Objectively? The Effects of Judgment Scale and Assessor's Background (SIGIR'20)
6/19 違う視点を知ればバイアスは軽減できる? 違う視点を持つ人と一緒にアノテーションをしてもあまり変化はなし → 単に違う視点を知るだけではバイアス軽減には至らない Does Exposure to Diverse Perspectives
Mitigate Biases in Crowdwork? An Explorative Study (HCOMP'20)
7/19 肌の色が違えばいろいろ違ったものに 画像に存在するバイアスを「肌の色が明るい人 or 暗い人」で調査 → キャプションの正確さ、感情や単語の選択に違い また、キャプションシステムが最新かどうかで大きな差 Understanding and
Evaluating Racial Biases in Image Captioning (ICCV'21)
8/19 うーんたぶんこれは真実かな(N回目) 公開されているクラウドソーシングデータの系統的探索分析を実施 → 認知バイアスのほか、科学に対する信念が影響する可能性を示唆 また、一般的に真実性を過大評価する傾向 The Effects of Crowd
Worker Biases in Fact-Checking Tasks (FaccT'22)
9/19 言論の有害性の評価において アノテーターのアイデンティティや信条が強く影響 → 特に、保守的だったり人種差別的信念のスコアが高いアノテーターは 黒人へのヘイトスピーチを無害と評価する一方、アフリカ英語を有害と評価 "標準"じゃないのは有害? Annotators with Attitudes:
How Annotator Beliefs And Identities Bias Toxic Language Detection (NAACL'22)
バイアス排除に挑戦している研究群 VLDB'20, CVPR'21, IJCAI'21, NerIPS'21, CHIIR'22, IJCV'22, CHI'22, ICML'22
11/19 MCMCに基づく類似アイテムの混同検出手法を提案し 品質が改善されることを実験で示した → 単純な警告であっても早期に混同のリスクを警告することで 大幅に改善できることも示した いつ頭こんがらがったか教えて〜 Detecting and Preventing
Confused Labels in Crowdsourced Data (VLDB'20)
12/19 GANを用いて現実的な画像を生成したのち、潜在空間において摂動を与える → 各保護属性に対してバランスの取れた学習データを生成 GANで公平さの補正をかける Fair Attribute Classification Through Latent
Space De-Biasing (CVPR'21)
13/19 ラベルに加えて、アノテーターとタスクの値も同時にEMアルゴリズムで推論 → アノテーターが多い、確証バイアスが大きい場合などでより正確に推測 より確証バイアスを考慮した回答統合 Accounting for Confirmation Bias in
Crowdsourced Label Aggregation (IJCAI'21)
14/19 ラベルを定義する固有の属性とバイアスを引き起こす周辺属性を分離し、 多様な固有属性サンプルを合成 → 各アイテムの非本質的な部分で学習してしまうことを防ぐ 余分な情報をあえてつける Learning Debiased Representation via
Disentangled Feature Augmentation (NeurIPS'21)
15/19 Webページの質判断にどういった要因が影響するか → 時間帯や曜日が大きく影響することを示し 影響を軽減するための方策を指南 アノテーションに効いてくるバイオリズム The Crowd is Made
of People: Observations from Large-Scale Crowd Labelling (CHIIR'22)
16/19 (1)オブジェクト、(2)人物、(3)地理の3つの次元に沿って 潜在的な偏りを可視化するツールを開発 → 「ではどうすればよいか?」も提案し、早期のバイアス軽減へ どれくらい偏ってるか、見れば分かるよね? REVISE: A Tool for
Measuring and Mitigating Bias in Visual Datasets (IJCV'22)
17/19 逐次的な意思決定において、 アンカリングの影響を捕捉し提示アイテムを動的に決定する手法を提案 → リアルタイムでバイアスを軽減しながらの評価収集を実現 さっき見たものの影響をどけたい AI-Moderated Decision-Making: Capturing and
Balancing Anchoring Bias in Sequential Decision Tasks (CHI'22)
18/19 画像内の顔に難読化処理を施す → 人種等の(不必要な)影響を軽減しつつ、 難読化済みデータで学習したモデルの性能低下は1%以下程度に抑えられた XX人がいるから〇〇を避けるために A Study of Face
Obfuscation in ImageNet (ICML'22)
完全じゃなくともバイアスを踏まえたデータ収集をやっていき https://alu.jp/series/僕たちがやりました/crop/HVt9jvtSrrrYDT8TbZ27