Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Man is to computer programmer as woman is...
Search
Kaito Sugimoto
May 22, 2020
Research
280
1
Share
【論文紹介】Man is to computer programmer as woman is to homemaker? debiasing word embeddings.
演習III 論文紹介
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
May 22, 2020
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
160
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
360
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
310
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
570
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
360
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
200
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
520
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
1.2k
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
320
Other Decks in Research
See All in Research
FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
satai
3
820
2026 東京科学大 情報通信系 研究室紹介 (大岡山)
icttitech
0
3.6k
AIを叩き台として、 「検証」から「共創」へと進化するリサーチ
mela_dayo
0
270
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
1.1k
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
shunk031
4
960
[BlackHatAsia2026] Hidden Telemetry: Uncovering TraceLogging ETW Providers You're Not Using (Yet)
asuna_jp
1
460
老舗ものづくり企業でリサーチが変革を起こすまで - 三菱重工DXの実践
skydats
0
160
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent
satai
0
230
NII S. Koyama's Lab Research Overview AY2026
skoyamalab
0
250
討議:RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
0
910
Collective Predictive Coding and World Models in LLMs: A System 0/1/2/3 Perspective on Hierarchical Physical AI (IEEE SII 2026 Plenary Talk)
tanichu
1
400
AY 2026 Guide to Academic Writing Using Generative AI - Workshop
ks91
PRO
0
110
Featured
See All Featured
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
560
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
380
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
310
Typedesign – Prime Four
hannesfritz
42
3.1k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
Claude Code のすすめ
schroneko
67
220k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Test your architecture with Archunit
thirion
1
2.3k
The Language of Interfaces
destraynor
162
26k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
The Curious Case for Waylosing
cassininazir
1
360
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
190
Transcript
Man is to computer programmer as woman is to homemaker?
debiasing word embeddings. 演習 III 論文紹介 杉本 海人 2020/05/22 1 / 14
分散表現(単語埋め込み) • 単語を実ベクトルにする: w ∈ Rd • ある単語の意味は, その周囲の文脈によって決まる(分布仮説) •
手法 1 カウントベース 周囲の単語をカウントした共起行列を作り, SVD(特異値分解) などで次元 を削減する 2 推論ベース Word2Vec(2013). 周囲の単語から元の単語を推論する問題 (CBOW) や元の単語から周囲の 単語を推論する問題 (skip-gram) を解く • 両者は別物ではなくある面では同じだったりする • 両者のハイブリッド: GloVe(2014). 2 / 14
分散表現のメリット 1 ベクトルの方向の近さ ≒ 意味の近さ • cos( − − →
dog, − → cat) > cos( − − → dog, − − − − − − − − − − − → programming) 2 analogy 問題が解ける • − − → king − − − − → man + − − − − − → woman ≈ − − − − → queen • − − − − − → France − − − − → Paris + − − − − → Tokyo ≈ − − − − → Japan 3 / 14
分散表現は性差別主義者? • − − − − − − − −
− − → homemaker(家政担当者), − − − − → nurse(看護師), − − − − − − − − − − → receptionist(受付), − − − − − − → librarian(司書) などが − → he よりも − − → she に近い • − − − − − − → maestro(音楽家), − − − − − − → skipper(船長), − − − − − − → protege(弟子), − − − − − − − − − − → philosopher(哲学者) などが − − → she よりも − → he に近い • − − − − − − − − − − − − − − − − − − − − → computer programmer − − − − → man + − − − − − → woman ≈ − − − − − − − − − − → homemaker • − − − − − − − − → carpentry (大工) −− − − → man + − − − − − → woman ≈ − − − − − → sewing (裁縫) • − − − − − − − − − − − → conservatism − − − − → man + − − − − − → woman ≈ − − − − − − − → feminism 4 / 14
分散表現は性差別主義者? • Indirect bias: − − − − − −
− − − − → bookkeeper(簿記) や − − − − − − − − − − → receptionist(受付) は − − − − − → football よ りも − − − − − → softball に近い ⇒ 本来 gender-netural であるべき単語の"意味"が ゆがめられている(Google News であっても) ⇒ そのような分散表現を使った人工知能が普及することで, 暗黙的な 差別が助長する可能性がある 5 / 14
論文の流れ • 分散表現はジェンダーバイアスを含有する • クラウドソーシングを使って, "不当に女性/男性に結び付けられ る言葉"などの偏見を実際に調査し, 分散表現が持つバイアスと傾向が一致することを確認 • 分散表現が含むジェンダーバイアスを定量的に評価する方法を
提案(後述) • ジェンダーバイアスを除去するアルゴリズム (debiasing algorithm) を提案し, それを使っても分散表現としての有用性が失われていないこと を確認(後述) 6 / 14
Gender direction 分散表現のうち性別に関する情報が詰まっている方向 g ∈ Rd 論文では, 以下の 10 個の
gender-specific な単語ベクトルの差を主成分 分析したところ, 第 1 主成分方向の寄与率が支配的だったので, その方 向を g とした. 7 / 14
Direct bias の評価 DirectBiasc = 1 |N| ∑ w∈N |cos(
ì w, g)|c N は gender-neutral な(であるべき)単語の集合 327 種類の職業の単語を N としたところ DirectBias1 = 0.08 8 / 14
Indirect bias の評価 Q. − − − − − −
− − − − → receptionist(受付) が − − − − − → football よりも − − − − − → softball に近いのは, どれほど ジェンダーバイアスによるものなのか? ある単語ベクトル w(||w|| = 1), その g への正射影を wg, g と直交する 方向 w⊥ = w − wg として, (w, v) = w · v − w⊥·v⊥ ||w⊥||||v⊥|| w · v つまり, g 方向成分を取り除くことで 2 つの単語ベクトルの内積がど の程度減るか? を表す ( − − − − − − − − − − → receptionist, − − − − − → softball) = 67% 9 / 14
Debiasing Step1: Identify gender subspace 先ほど gender direction を求めたように主成分分析を行い, バイアス方
向の部分空間 B を計算する Step2a: Hard debiasing gender-neutral な単語について, B への射影が 0 になるようにする (neutralize) gender-neutral な単語から等距離であるべき単語のペア((grandmother, grandfather) など)について, 等距離になるようにする (equalize) 10 / 14
Debiasing 1 1FAT* 2018 tutorial slides 11 / 14
Debiasing Step2b: Soft debiasing 分散表現を格納した行列 W を T をかけて線形変換して, TW
が debiased になってほしい. T を求めるために, 以下のように考える 線形変換後も各単語の分散表現間の内積をできるだけそのままにし つつ, gender-neutral な単語についてはバイアス方向の射影をできるだけ小 さくする これは罰則項付き最適化問題のような形で立式できる 12 / 14
Results 13 / 14
Results Q. Indirect bias については? − − − − −
→ softball- − − − − − → football 方向の analogy は, − − − − − − − − − − → receptionist のような職業に関するものが候補に出てこなくなった ( − − − − − → softball であれば − − − − − → pitcher など, − − − − − → football であれば − − − − − − − − → midfielder など, 語義 に関連性のあるものが代わりに出てくるようになった) 14 / 14