アノテーションのバイアス排除に関する2020年代の研究動向

アノテーションのバイアス排除に関する 2020年代の研究動向栗本真太郎（@kuri8ive） 2022年7月20日 2022年夏の Official Account 開発室 LT大会 Ad
Data Science Team

2/19 「いかにバイアスを排除しアノテーションの質を高めるか？」に関連する近年の研究をざっくり紹介するものこれはなに

バイアス排除の難しさを感じさせる研究群 CSCW'20, SIGIR'20, HCOMP'20, ICCV'21, FaccT'22, NAACL'22

4/19 えらい人の都合 in データ多くの研究はアノテーターの主観に焦点を当てているが本当にそれが問題？ → 上位にいる他者の関心、価値、優先順位に深く影響されていた Between Subjectivity and
Imposition: Power Dynamics in Data Annotation for Computer Vision (CSCW'20)

5/19 素人でも玄人並みのアノテーションは可能？政治的発言の誤報識別タスクで概ね専門家と類似したアノテーション結果また、ワーカーのグループ化が有用であることも示唆 → ただし、暗黙的な政治的志向が真偽の判断品質に影響するので注意（明示的な政治スタンスとは関係なく） Can The Crowd
Identify Misinformation Objectively? The Effects of Judgment Scale and Assessor's Background (SIGIR'20)

6/19 違う視点を知ればバイアスは軽減できる？違う視点を持つ人と一緒にアノテーションをしてもあまり変化はなし → 単に違う視点を知るだけではバイアス軽減には至らない Does Exposure to Diverse Perspectives
Mitigate Biases in Crowdwork? An Explorative Study (HCOMP'20)

7/19 肌の色が違えばいろいろ違ったものに画像に存在するバイアスを「肌の色が明るい人 or 暗い人」で調査 → キャプションの正確さ、感情や単語の選択に違いまた、キャプションシステムが最新かどうかで大きな差 Understanding and
Evaluating Racial Biases in Image Captioning (ICCV'21)

8/19 うーんたぶんこれは真実かな（N回目）公開されているクラウドソーシングデータの系統的探索分析を実施 → 認知バイアスのほか、科学に対する信念が影響する可能性を示唆また、一般的に真実性を過大評価する傾向 The Effects of Crowd
Worker Biases in Fact-Checking Tasks (FaccT'22)

9/19 言論の有害性の評価においてアノテーターのアイデンティティや信条が強く影響 → 特に、保守的だったり人種差別的信念のスコアが高いアノテーターは黒人へのヘイトスピーチを無害と評価する一方、アフリカ英語を有害と評価 "標準"じゃないのは有害？ Annotators with Attitudes:
How Annotator Beliefs And Identities Bias Toxic Language Detection (NAACL'22)

バイアス排除に挑戦している研究群 VLDB'20, CVPR'21, IJCAI'21, NerIPS'21, CHIIR'22, IJCV'22, CHI'22, ICML'22

11/19 MCMCに基づく類似アイテムの混同検出手法を提案し品質が改善されることを実験で示した → 単純な警告であっても早期に混同のリスクを警告することで大幅に改善できることも示したいつ頭こんがらがったか教えて〜 Detecting and Preventing
Confused Labels in Crowdsourced Data (VLDB'20)

12/19 GANを用いて現実的な画像を生成したのち、潜在空間において摂動を与える → 各保護属性に対してバランスの取れた学習データを生成 GANで公平さの補正をかける Fair Attribute Classification Through Latent
Space De-Biasing (CVPR'21)

13/19 ラベルに加えて、アノテーターとタスクの値も同時にEMアルゴリズムで推論 → アノテーターが多い、確証バイアスが大きい場合などでより正確に推測より確証バイアスを考慮した回答統合 Accounting for Confirmation Bias in
Crowdsourced Label Aggregation (IJCAI'21)

14/19 ラベルを定義する固有の属性とバイアスを引き起こす周辺属性を分離し、多様な固有属性サンプルを合成 → 各アイテムの非本質的な部分で学習してしまうことを防ぐ余分な情報をあえてつける Learning Debiased Representation via
Disentangled Feature Augmentation (NeurIPS'21)

15/19 Webページの質判断にどういった要因が影響するか → 時間帯や曜日が大きく影響することを示し影響を軽減するための方策を指南アノテーションに効いてくるバイオリズム The Crowd is Made
of People: Observations from Large-Scale Crowd Labelling (CHIIR'22)

16/19 （1）オブジェクト、（2）人物、（3）地理の3つの次元に沿って潜在的な偏りを可視化するツールを開発 → 「ではどうすればよいか？」も提案し、早期のバイアス軽減へどれくらい偏ってるか、見れば分かるよね？ REVISE: A Tool for
Measuring and Mitigating Bias in Visual Datasets (IJCV'22)

17/19 逐次的な意思決定において、アンカリングの影響を捕捉し提示アイテムを動的に決定する手法を提案 → リアルタイムでバイアスを軽減しながらの評価収集を実現さっき見たものの影響をどけたい AI-Moderated Decision-Making: Capturing and
Balancing Anchoring Bias in Sequential Decision Tasks (CHI'22)

18/19 画像内の顔に難読化処理を施す → 人種等の（不必要な）影響を軽減しつつ、難読化済みデータで学習したモデルの性能低下は1％以下程度に抑えられた XX人がいるから〇〇を避けるために A Study of Face
Obfuscation in ImageNet (ICML'22)

完全じゃなくともバイアスを踏まえたデータ収集をやっていき https://alu.jp/series/僕たちがやりました/crop/HVt9jvtSrrrYDT8TbZ27

アノテーションのバイアス排除に関する2020年代の研究動向

アノテーションのバイアス排除に関する2020年代の研究動向

kuri8ive

More Decks by kuri8ive

Other Decks in Research

Featured

Transcript