Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 Discovering and Categorising Language Bias...

論文紹介 Discovering and Categorising Language Biases in Reddit / web-socialmedia-study-5th

「ウェブ・ソーシャルメディア論文読み会」第五回の発表資料です
https://sites.google.com/view/web-socialmedia-study/home
論文: Discovering and Categorising Language Biases in Reddit (ICWSM2021) by Ferrer, X., van Nuenen, T., Such, J. M., & Criado, N.
https://ojs.aaai.org/index.php/ICWSM/article/view/18048

Shotaro Ishihara

May 18, 2023
Tweet

More Decks by Shotaro Ishihara

Other Decks in Research

Transcript

  1. 2 本論文の概要 • 特定コーパスの言語バイアスを発見・分類する、 単語分散表現を用いたデータ駆動型アプローチを 提案(掲示板サイト Reddit と Google News)

    • あらかじめ定義された偏った概念(バイアス)を 証明するのではなく、探索的に分析する枠組み • 発展版がジャーナルに IEEE Transactions on Knowledge and Data Engineering (Volume: 35, Issue: 4, 01 April 2023)
  2. 3 読み手の紹介 • 大学新聞での 4 年間の記者・編集長などを経て、 日経新聞でデータ分析・機能開発・研究に従事 • 大規模言語モデル (LLMs)

    とニュースメディア ◦ LLMs による閲覧時間推定 (BigData 2022 I&G) ◦ LLMs の時系列性能劣化 (AACL 2022) ◦ LLMs からの訓練データ抽出(ANLP2023) • 機械学習コンテストに関する書籍 * 3
  3. 4 • 第 2 回計算社会科学会大会で優秀賞 ◦ 単語分散表現による言語の通時変化の定量化:11年分の日英ニュース記事 を用いた社会的事象の分析 • IC2S2

    2023 ポスター採択(現地参加予定) ◦ Quantifying Diachronic Language Change via Word Embeddings: Analysis of Social Events using 11 Years News Articles in Japanese and English • 人工知能学会全国大会 2023(同僚の研究) ◦ 6 月 7 日 (水) 09:00-09:20 [2H1-OS-3a-01] 政治資金収支報告書の OCR による政治資金データベースへの試み 計算社会科学関連
  4. 6 本論文紹介の目次 • 前提知識:単語分散表現とは? • 提案するアプローチ:バイアスの発見・分類 • 実験: ◦ Google

    News で学習されたモデル ◦ Reddit で学習されたモデル • 議論(私見も含めて)
  5. skip-gram:中心のある単語から 周辺の単語を予測し、単語分散 表現を獲得 • 乾杯 は コロナ ビール で •

    新型 コロナ で 療養 中 単語分散表現はコーパスの写し鏡 (?) 9 コーパス 2019 コーパス 2020 単語分散表現 互いに異なる単語分散表現が得られる
  6. 10 素朴なアプローチ • とある単語の分散表現 w について、事前に定義し た特定の 2 単語の分散表現 c1

    , c2 を用いる ◦ たとえば w: 医師、c1 : 男性、c2 : 女性 • 正であるほど c1 、負であるほど c2 に寄っていると 考える
  7. 14 関連する研究 2 種類と課題 1. あらかじめ定義されたバイアスを証明する研究 ◦ 事前の定義が必要 2. 単語分散表現から偏った単語を発見する研究

    ◦ 何を意味するか、コミュニティ(コーパス) で どの程度重要なのかを説明していない ◦ コミュニティの言語の識別と理解の両方を支援 する自動化手法が必要
  8. 16 提案する (一連の) アプローチ 1. 単語分散表現を学習し、2 つの概念を選択 2. 各概念に対し、上位 n

    個の偏った単語を選択 3. これらの単語を k-means クラスタリング 4. 各クラスタへのタグ付け(分類)
  9. 17 Step 1:概念の選択 • 男性:T1 = {he, son, him, father,

    male} • 女性:T2 = {she, daughter, her, mother, female} => T1 に属する単語の分散表現の平均を C1 と見なす => T2 も同様
  10. 18 Step 1(素朴なアプローチの再掲) • とある単語の分散表現 w について、事前に定義し た特定の 2 単語の分散表現

    c1 , c2 を用いる ◦ たとえば w: 医師、c1 : 男性、c2 : 女性 • 正であるほど c1 、負であるほど c2 に寄っていると 考える
  11. 22 Step 4:各クラスタへのタグ付け • UCREL Semantic Analysis System (USAS) を利用

    ◦ テキスト意味解析とタグ付けのフレームワーク ◦ 21 の主要な談話分野とより細かいカテゴリの多 層構造を持つ ◦ People, Ethics, Relationship: sexual など
  12. 24 実験対象 • Google News で学習されたモデル ◦ 著名な学習済みモデル ◦ バイアスに関する先行研究が再現するか検証

    • Reddit で学習されたモデル ◦ Reddit に関する分析は少なく、新規性の貢献も
  13. 29 提案するアプローチの限界 1. 単語の出現頻度を考慮しないため、発見された単 語がコミュニティを代表しない可能性がある 2. 手動での処理が残っている(クラスタ数 k など) 3.

    概念 (T1 , T2 ) とコミュニティで実際に使用されて いる言語との間の関連付けができない ※ 詳細はジャーナル版の Section 2 も参照