Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 Discovering and Categorising Language Biases in Reddit / web-socialmedia-study-5th

論文紹介 Discovering and Categorising Language Biases in Reddit / web-socialmedia-study-5th

「ウェブ・ソーシャルメディア論文読み会」第五回の発表資料です
https://sites.google.com/view/web-socialmedia-study/home
論文: Discovering and Categorising Language Biases in Reddit (ICWSM2021) by Ferrer, X., van Nuenen, T., Such, J. M., & Criado, N.
https://ojs.aaai.org/index.php/ICWSM/article/view/18048

Shotaro Ishihara

May 18, 2023
Tweet

More Decks by Shotaro Ishihara

Other Decks in Research

Transcript

  1. 読み手:石原祥太郎(日本経済新聞社)
    第五回ウェブ・ソーシャルメディア論文読み会
    2023 年 5 月 18 日
    ICWSM 2021 [paper] [video]

    View full-size slide

  2. 2
    本論文の概要
    ● 特定コーパスの言語バイアスを発見・分類する、
    単語分散表現を用いたデータ駆動型アプローチを
    提案(掲示板サイト Reddit と Google News)
    ● あらかじめ定義された偏った概念(バイアス)を
    証明するのではなく、探索的に分析する枠組み
    ● 発展版がジャーナルに
    IEEE Transactions on Knowledge and Data Engineering
    (Volume: 35, Issue: 4, 01 April 2023)

    View full-size slide

  3. 3
    読み手の紹介
    ● 大学新聞での 4 年間の記者・編集長などを経て、
    日経新聞でデータ分析・機能開発・研究に従事
    ● 大規模言語モデル (LLMs) とニュースメディア
    ○ LLMs による閲覧時間推定 (BigData 2022 I&G)
    ○ LLMs の時系列性能劣化 (AACL 2022)
    ○ LLMs からの訓練データ抽出(ANLP2023)
    ● 機械学習コンテストに関する書籍 * 3

    View full-size slide

  4. 4
    ● 第 2 回計算社会科学会大会で優秀賞
    ○ 単語分散表現による言語の通時変化の定量化:11年分の日英ニュース記事
    を用いた社会的事象の分析
    ● IC2S2 2023 ポスター採択(現地参加予定)
    ○ Quantifying Diachronic Language Change via Word Embeddings: Analysis
    of Social Events using 11 Years News Articles in Japanese and English
    ● 人工知能学会全国大会 2023(同僚の研究)
    ○ 6 月 7 日 (水) 09:00-09:20 [2H1-OS-3a-01]
    政治資金収支報告書の OCR による政治資金データベースへの試み
    計算社会科学関連

    View full-size slide

  5. 5
    なぜ本論文を選んだか
    ● 単語分散表現によるテキストマイニングを題材と
    した研究として、丁寧な分析で汎用性がある
    ○ 目的やデータセットを置き換えても使えそう
    ○ 計算社会科学での論文の雰囲気を知れそう
    ○ バイアス自体の報告は論文参照
    ● Reddit は近年の ChatGPT の台頭で LLMs の訓練
    セットとして注目を集めている

    View full-size slide

  6. 6
    本論文紹介の目次
    ● 前提知識:単語分散表現とは?
    ● 提案するアプローチ:バイアスの発見・分類
    ● 実験:
    ○ Google News で学習されたモデル
    ○ Reddit で学習されたモデル
    ● 議論(私見も含めて)

    View full-size slide

  7. ● 単語の意味は周辺の単語によって
    決まるという分布仮説に基づき、
    単語をベクトル空間上に埋め込む
    ● Word2Vec:ニューラルネットワー
    クによるモデル化
    ● 類似度測定やアナロジーが可能に
    単語分散表現
    7
    コーパス
    単語分散表現

    View full-size slide

  8. 8
    類似度推定・アナロジー
    ● 分散表現のコサイン類似度を単語の類似度と仮定
    ● 加減算での単語類推ができる可能性
    man
    woman
    king
    ????
    car
    automobile
    θ

    View full-size slide

  9. skip-gram:中心のある単語から
    周辺の単語を予測し、単語分散
    表現を獲得
    ● 乾杯 は コロナ ビール で
    ● 新型 コロナ で 療養 中
    単語分散表現はコーパスの写し鏡 (?)
    9
    コーパス
    2019
    コーパス
    2020
    単語分散表現
    互いに異なる単語分散表現が得られる

    View full-size slide

  10. 10
    素朴なアプローチ
    ● とある単語の分散表現 w について、事前に定義し
    た特定の 2 単語の分散表現 c1
    , c2
    を用いる
    ○ たとえば w: 医師、c1
    : 男性、c2
    : 女性
    ● 正であるほど c1
    、負であるほど c2
    に寄っていると
    考える

    View full-size slide

  11. 11
    素朴なアプローチの例
    c2
    : woman
    c1
    : man
    w
    0.6 ? 0.1 ?

    View full-size slide

  12. 12
    本論文紹介の目次
    ● 前提知識:単語分散表現とは?
    ● 提案するアプローチ:バイアスの発見・分類
    ● 実験:
    ○ Google News で学習されたモデル
    ○ Reddit で学習されたモデル
    ● 議論(私見も含めて)

    View full-size slide

  13. 13
    関連する研究 2 種類
    1. あらかじめ定義されたバイアスを証明する研究
    ○ 心理学や社会科学などで知られる定義を利用
    2. 単語分散表現から偏った単語を発見する研究
    ○ 多くの単語を探索して列挙
    ※ 詳細はジャーナル版の Section 2 を参照

    View full-size slide

  14. 14
    関連する研究 2 種類と課題
    1. あらかじめ定義されたバイアスを証明する研究
    ○ 事前の定義が必要
    2. 単語分散表現から偏った単語を発見する研究
    ○ 何を意味するか、コミュニティ(コーパス) で
    どの程度重要なのかを説明していない
    ○ コミュニティの言語の識別と理解の両方を支援
    する自動化手法が必要

    View full-size slide

  15. 15
    本論文の貢献
    ● 特定の概念に偏った単語を発見し、その偏りを比
    較するためにカテゴリ分類する一連のアプローチ
    を提案
    ● あるコミュニティで特定の概念に最も偏った単語
    は何か、どの意味カテゴリに属しているかを知る
    ことができる

    View full-size slide

  16. 16
    提案する (一連の) アプローチ
    1. 単語分散表現を学習し、2 つの概念を選択
    2. 各概念に対し、上位 n 個の偏った単語を選択
    3. これらの単語を k-means クラスタリング
    4. 各クラスタへのタグ付け(分類)

    View full-size slide

  17. 17
    Step 1:概念の選択
    ● 男性:T1
    = {he, son, him, father, male}
    ● 女性:T2
    = {she, daughter, her, mother, female}
    => T1
    に属する単語の分散表現の平均を C1
    と見なす
    => T2
    も同様

    View full-size slide

  18. 18
    Step 1(素朴なアプローチの再掲)
    ● とある単語の分散表現 w について、事前に定義し
    た特定の 2 単語の分散表現 c1
    , c2
    を用いる
    ○ たとえば w: 医師、c1
    : 男性、c2
    : 女性
    ● 正であるほど c1
    、負であるほど c2
    に寄っていると
    考える

    View full-size slide

  19. 19
    Step 2:上位 n 個の偏った単語
    ● 名詞と形容詞のみに限定
    ● 偏った単語の集合を S1
    , S2
    とする
    T1
    T2

    View full-size slide

  20. 20
    Step 2(素朴なアプローチの再掲)
    c2
    : woman
    c1
    : man
    w
    0.6 ? 0.1 ?

    View full-size slide

  21. 21
    Step 3:k-means クラスタリング
    ● k の値の設定はケースバイケース
    T1

    View full-size slide

  22. 22
    Step 4:各クラスタへのタグ付け
    ● UCREL Semantic Analysis System (USAS) を利用
    ○ テキスト意味解析とタグ付けのフレームワーク
    ○ 21 の主要な談話分野とより細かいカテゴリの多
    層構造を持つ
    ○ People, Ethics, Relationship: sexual など

    View full-size slide

  23. 23
    本論文紹介の目次
    ● 前提知識:単語分散表現とは?
    ● 提案するアプローチ:バイアスの発見・分類
    ● 実験:
    ○ Google News で学習されたモデル
    ○ Reddit で学習されたモデル
    ● 議論(私見も含めて)

    View full-size slide

  24. 24
    実験対象
    ● Google News で学習されたモデル
    ○ 著名な学習済みモデル
    ○ バイアスに関する先行研究が再現するか検証
    ● Reddit で学習されたモデル
    ○ Reddit に関する分析は少なく、新規性の貢献も

    View full-size slide

  25. 25
    Google News での検証
    ● 先行研究が報告していたバイアスを再現
    ○ 男性:キャリア、数学・理科などの単語
    ○ 女性:家族、芸術などの単語

    View full-size slide

  26. 26
    Reddit
    ● 米国発の掲示板サイト(2005 年〜)
    ● さまざまな話題について議論が交わされている
    ● 匿名で投稿可能だが、比較的治安が良い印象
    ● 多くの研究の題材になっており、近年は対話コー
    パスとしても注目を集めている

    View full-size slide

  27. 27
    報告した Reddit 内ページとバイアス
    ● /r/TheRedPill:性別について
    ● /r/DatingAdvice:性別について
    ● /r/Athesm:宗教について
    ● /r/The_Donald:民族について

    View full-size slide

  28. 28
    本論文紹介の目次
    ● 前提知識:単語分散表現とは?
    ● 提案するアプローチ:バイアスの発見・分類
    ● 実験:
    ○ Google News で学習されたモデル
    ○ Reddit で学習されたモデル
    ● 議論(私見も含めて)

    View full-size slide

  29. 29
    提案するアプローチの限界
    1. 単語の出現頻度を考慮しないため、発見された単
    語がコミュニティを代表しない可能性がある
    2. 手動での処理が残っている(クラスタ数 k など)
    3. 概念 (T1
    , T2
    ) とコミュニティで実際に使用されて
    いる言語との間の関連付けができない
    ※ 詳細はジャーナル版の Section 2 も参照

    View full-size slide

  30. 30
    本論文を読んだ感想
    ● 一般的な手法の組み合わせだが、一連のアプロー
    チとしてまとめている
    ○ 著名な対象を分析して有用性を示し、新しめの
    対象を分析して新規性を出している実験設計
    ● 定性的な考察が多く、興味深い
    ● 自分でも、目的やデータセットを置き換えて手を
    動かしやすそう

    View full-size slide