Upgrade to Pro — share decks privately, control downloads, hide ads and more …

線形判別分析のPU学習による 朝日歌壇短歌の分析

Avatar for MasaKat0 MasaKat0
March 11, 2025

線形判別分析のPU学習による 朝日歌壇短歌の分析

言語処理学会 第31回年次大会(NLP2025)

Avatar for MasaKat0

MasaKat0

March 11, 2025
Tweet

More Decks by MasaKat0

Other Decks in Research

Transcript

  1. 研究の概要 ◼研究の目的:朝日歌壇に掲載されている短歌の特徴の理解. • 朝日歌壇に掲載されている短歌と掲載されない短歌との比較. • 問題点: 掲載されなかった短歌のデータがない. → 比較の対象には,生成モデルから作成された短歌を用いる. ◼生成短歌:

    • 生成短歌 = 朝日歌壇に掲載されない短歌ではない. • 朝日歌壇に投稿されていたら掲載されるような短歌から, 掲載されないような短歌まで幅広い短歌が含まれている. → 朝日歌壇短歌を正例,生成短歌を負例とする分析は望ましくない. 3 比較 朝日歌壇短歌 生成短歌 正例(掲載される)短歌 負例(掲載されない)短歌
  2. 研究の概要 ◼短歌を文埋め込みでベクトルに変換. → 朝日歌壇短歌と生成短歌に対してFisherの線形判別分析を適用. • 分類問題を通じて文埋め込みベクトルを低次元空間に射影. ◼PU学習:正例データとラベルなしデータを用いる学習 • 朝日歌壇短歌:正例データ •

    生成短歌:正例と負例が混在するラベルなしデータ • 一部のラベルが観測できない設定. ◼従来の線形判別分析をPU 学習の枠組みに拡張して分析. 4 比較 朝日歌壇短歌 生成短歌 正例(掲載される)短歌 負例(掲載されない)短歌
  3. 朝日歌壇短歌と生成短歌 ◼朝日歌壇に掲載された短歌を,それ以外の短歌との比較を通じて分析する. ◼朝日歌壇短歌: • 選者のうち永田氏と馬場氏によって選ばれた短歌に着目. • ひらがなとカタカナが90%を占める短歌を除外した23,743 首を分析に使用. • 永田氏は9,454

    首,馬場氏は14,432首. ◼生成短歌: • 生成モデルには,羽根田ら(2024)で提案されているモデルを使用. • 生成モデルから10,000首を生成. • ひらがなとカタカナが90%を占めている短歌と,短歌の体裁をなしていない短歌を除外 → 残った9,694 首を分析に使用. 5
  4. 文埋め込みベクトルへの変換 ◼短歌を文埋め込みで数値情報に変換. • 文埋め込みにはuSIFを利用. • uSIFで用いる単語埋め込みには朝日新聞単語ベクトルを利用. ◼文埋め込みベクトルを用いて,定量的に各選者が選ぶ短歌の違いについて調査. ➢短歌がどの選者によって選ばれたかという分類問題を考える. (クラス1)永田氏に選ばれる短歌. (クラス2)馬場氏に選ばれる短歌.

    (クラス3)永田氏にも馬場氏にも選ばれない短歌 ← 観測できない. → Fisherの線形判別分析(Linear Discriminant Analysis;LDA)を用いて分類を行う. • データをよりよく分類する低次元データに射影することで分類を行う方法. 6 生成短歌は どのクラスも含みうる.
  5. PU学習 ◼ 朝日歌壇短歌に掲載される短歌と,掲載されない短歌に分類したい. • 生成短歌は朝日歌壇に掲載されない短歌? ◼ PU学習(正例データとラベルなしデータからの学習)の枠組み使用. • 二値分類問題: 正例クラス(𝑌

    = 1)と負例クラス(𝑌 = 2). • 通常の機械学習:正例データと負例データを用いる学習. • PU学習: :正例データとラベルなしデータを用いる学習. • 多クラス分類(本研究): • 永田選(クラス1)と馬場選(クラス2)短歌. • 二人に選ばれなかった短歌(クラス3)は観測できない. • 生成短歌は三つのクラスを含むラベルなしデータ. ➢ LDAをPU学習の枠組みに拡張した手法(PU-LDA)を提案. 8 正例 負例 ラベルなし 通常の学習 PU学習
  6. PU-LDAを用いる朝日歌壇短歌の分析 ➢PU-LDA を用いて朝日歌壇短歌と生成短歌を分析する. (クラス1)永田氏に選ばれる短歌. (クラス2)馬場氏に選ばれる短歌. (クラス3)永田氏にも馬場氏にも選ばれない短歌 ← 観測できない. ◼PU-LDAはクラス事前分布と呼ばれるハイパーパラメータに依存. •

    クラス事前分布𝜋𝑘 (𝑘 = 1,2,3) は,生成短歌にクラス𝑘の短歌が含まれる割合を意味する. • 例:𝜋1 = 0.1,𝜋2 = 0.1,𝜋3 = 0.8 の場合: • 生成短歌全体のうち10%の短歌が永田選に,10%の短歌が馬場選に選ばれると仮定. • 残りの80%の短歌が永田氏にも馬場氏にも選ばれないと仮定. • この比率は未知であり,生成短歌がどれだけ朝日歌壇に近いかに関する分析者の仮定. 9 生成短歌は どのクラスも含みうる. 正例 負例
  7. PU-LDAを用いる朝日歌壇短歌の分析 ➢クラス事前分布が𝝅𝟏 = 𝝅𝟐 = 𝟎. 𝟒𝟗の事例を分析. (論文では他の値も検証) • 生成短歌の49%が永田氏に,

    49%が馬場氏によって選ばれるという仮定. → 生成短歌のほとんど(98%)が歌壇に掲載される. • 生成短歌と朝日歌壇短歌に大きな差 がないという仮定. → 生成短歌にしか見られない特徴を強く抽出. ➢分類結果: • 射影軸上において生成短歌の群が他の選者の短歌の群に重なるように分布 10 • 𝑥軸は射影軸1 に,𝑦軸は射影軸2 に対応.
  8. PU-LDAを用いる朝日歌壇短歌の分析 ➢ 𝜋1 = 𝜋2 = 0.49の場合: • ほとんどの生成短歌が 歌壇に掲載される.

    ➢ 𝜋1 = 𝜋2 = 0.01の場合: • ほとんどの生成短歌が 歌壇に掲載されない. 11
  9. 参考文献 • Elkan and K. Noto, “Learning classifiers from only

    positive and unlabeled data,” in International Conference on Knowledge Discovery and Data Mining. Association for Computing Machinery, 2008, p. 213–220. • S. Arora, Y. Liang, and T. Ma, “A simple but tough-to-beat baseline for sentence embeddings,” in International Conference on Learning Representations (ICLR), 2017. • Fisher, R. A.: The Use of Multiple Measurements in Taxonomic Problems, Annals of Eugenics, Vol. 7, No. 2, pp. 179–188 (1936). • 羽根田賢和,浦川通,田口雄哉,田森秀明,坂口慶祐,“RLHF を用いた「面白い」短歌の自動生成の試 み”,言語処理学会第30 回年次大会論文集,2024. • 新妻巧朗,田口雄哉,田森秀明: 計量テキスト分析のた めの文埋め込みによる探索的カテゴリ化,言語処 理学会 第 30 回年次大会,pp. 494–499 (2024). 20
  10. 参考資料:文埋め込み ◼ 文埋め込み(Text embedding): ➢ Smoothed Inverse Frequency (SIF, Arora

    et al., 2017): • 文中の単語のベクトルを適切に重みづけて文埋め込みベクトルを得る. • unsupervised Smoothed Inverse Frequency (uSIF, Ethayarajh et al., 2018): • SIFのハイパーパラメータの設定もアルゴリズムに含めてSIF を改良したもの. ◼ 本研究では,朝日新聞単語ベクトルとuSIFを用いて文ベクトルを得る. ➢ 朝日新聞単語ベクトル (田口 et al., 2017). • 朝日新聞社が保有する1984年8月から2017年8月までに掲載された記事のうち,約800万記事(延べ約 23億単語)を用いて単語ベクトルを学習. ◼ 朝日新聞単語ベクトルは300次元の単語ベクトル. → uSIFと朝日新聞単語ベクトルを用いて得られる文埋め込みベクトルも300次元になる. 21
  11. 参考資料: PU-LDA ◼ 従来のLDAをPU学習の設定に拡張.提案法をPU-LDAと呼ぶことにする. 22 ➢ 従来のLDA(2クラス): • 短歌𝒙𝑖 とラベル(どの選者が選んだか)𝑦𝑖

    ∈ {1,2}. • 線形分類器 𝑓 𝒙 : = ቊ 1, 𝑾⊤ 𝒙 ≥ 0 2, 𝑾⊤ 𝒙 < 0 を考える. • クラス間分散の最大化でパラメータ𝑾を求める. • 短歌全体の𝒙𝑖 の平均ベクトルを𝒎とする. • 選者𝑘が選んだ短歌𝒙𝑖 の平均ベクトル:𝒎𝑘 . • クラス内共分散𝑆𝑊 ≔ σ𝑘=1 2 σ𝑖:𝑦𝑖=𝑘 𝒙𝑖 − 𝒎𝑘 ሺ ሻ 𝒙𝑖 − 𝒎𝑘 ⊤. • クラス間共分散𝑆𝐵 ≔ ሺ𝒎2 − 𝒎1 ሻ 𝒎2 − 𝒎1 ⊤. • 𝐽 𝑾 : = tr 𝑾𝑆𝑊 𝑾 −1 𝑾⊤𝑆𝐵 𝑾 を最大化することで パラメータ𝑾を求める. ➢ PU-LDA (2クラス): ◼ 負例データを観測できない = 𝒎2 を直接計算できない. • 正例の平均𝒎1 :正例データのサンプル平均によって近似可能 • 課題は負例の平均𝒎2 を計算すること. ✓ 𝒎2 はラベルなしデータの平均𝒎から正例データの平均𝒎1 を引 くことで計算可能: • 𝒎2 = ሺ𝒎 − 𝜋1 𝒎1 ሻ/𝜋2 • ここで,𝜋1 と𝜋2 はクラス事前分布. • データ全体に占めるクラス1とクラス2の割合. • 本研究では既知とする. • この𝒎2 を従来のLDAの𝒎2 の代わりに用いてLDAを実行. → 多クラス分類の設定にも拡張可能.
  12. 参考資料: PU-LDA ◼ 短歌𝒙𝑖 の正例 𝑝 𝑥 𝑦 = +1

    ,負例 𝑝ሺ𝑥 ∣ 𝑦 = 2ሻ ,およびラベルなし(混合)データ 𝑝ሺ𝑥ሻ. • 負例データ 𝑝ሺ𝑥 ∣ 𝑦 = 2ሻ を直接観測できなくても,正例データとラベルなしデータで復元できる. 23 23 正例データ 𝑝ሺ𝑥 ∣ 𝑦 = 1ሻ ラベルなしデータの分布 𝑝ሺ𝑥ሻ = 正例データと負例データの混合. スケール調整 調整された正例データ 𝜋1 𝑝ሺ𝑥 ∣ 𝑦 = 1ሻ − 復元された負例データ 𝜋2 𝑝ሺ𝑥 ∣ 𝑦 = 2ሻ 𝑝ሺ𝑦 = 1ሻ𝑝 𝑥 𝑦 = 1 = 𝑝 𝑥 − 𝑝 𝑦 = 1 𝑝ሺ𝑥 ∣ 𝑦 = 1ሻ
  13. 参考資料: PU-LDAを用いる朝日歌壇短歌の分析 ➢ 𝜋1 = 𝜋2 = 𝜋 = 0.01の場合:

    • 生成短歌の限られた一部(2%)のみが 朝日歌壇に掲載されることを仮定. • 分析生成短歌と朝日歌壇短歌の違いが大きいと仮定. → 朝日歌壇短歌にしか見られない特徴を抽出. ➢ 分類結果: • 生成短歌の群が他の選者の短歌の群から 離れるように分布している. • LDA で得られた射影軸上において, 生成短歌の群が他の選者の短歌の群から離れるように分布. • 具体的な短歌については表2 に示す. 24  PU-LDA を用いる朝日歌壇短歌の分類. • 𝑥軸は射影軸1 に,𝑦軸は射影軸2 に対応. • 生成短歌は永田選・馬場選から離れた位置に分布.