Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介_LSC-Eval: A General Framework to Evaluate ...

Avatar for ShitoRyo ShitoRyo
October 21, 2025

論文紹介_LSC-Eval: A General Framework to Evaluate Methods for Assessing Dimensions of Lexical Semantic Change Using LLM-Generated Synthetic Data

Avatar for ShitoRyo

ShitoRyo

October 21, 2025
Tweet

More Decks by ShitoRyo

Other Decks in Research

Transcript

  1. <Gay> and its Synonyms in English. [Hamilton+, 2016] gay (1900s)

    gay (1990s) 意味変化検出 gay (1950s) flaunting tasteful daft witty bright bisexual lesbian sweet cheerful 結構 (1820s) 結構 (2000s) 布置 (Layout) 構造 (Structure) 充分 · 良好 (splendid) 割と (quite) <結構 (kekko)> and its Synonyms in Japanese. [Ling+, 2023] 3 単語の意味は時代とともに変わることがある タスク:大規模データから意味が変わった単語を検出(基本的に教師なし)
  2. タスク自体の変化 今までの意味変化検出: 単語の意味が変化したのか? = 0 or 1 単語の意味がどれぐらい変化したのか? = [0,

    1] 最近の意味変化検出[Aida2024]:意味の種類(変わり方)について、種類を知りたい 本タスクのチャレンジ: • 意味変化の種類をどのように定義 するか • 定義した意味変化の種類をどのように予測・評価 するか
  3. 今まで評価が直面する問題点 • 通時コーパス由来のベンチマーク不足 →手法の妥当性が定まらない • 単語の意味のなにが変わったのか 、次元ごとの評価が難しい 先行研究: • [Schlechtweg+2020]

    単語がどれぐらい変わったかをアノテーションで算出 ◦ SemEval-2020 Task 1:パターン情報そもそもなかった;データ作成のコストが 高い • [Loureiro+2022] TempoWiC:通時的なWord-in-Context in SNS data ◦ Word-in-Context:単語の2つの用例で、対象単語の意味が同じなのかを判断するタスク • [Cassotti+2024] 単語の(旧語義,新語義)のペアで変化パターンを分類 ◦ Wordnetの語義関係を[Blank, 1997]の変化パターンにマッピング、 メタファーや意味の漂流を扱 わ なかった • [Baes+2024] Sentiment / Intensity / Breadth 三軸で意味変化を分類 ◦ 同著者による理論、今回の手法もこの理論によって設計された
  4. 本研究の提案:LSC-Eval 合成データを使用するLanguage Independentな評価フレームワーク • ベンチマーク不足 → LLM (ICL)+辞書で人工データ を作ろう •

    次元ごとの評価が難しい → 人工データを既存手法の次元 で評価、適合性を示す Research Question: • 人工データを用いた評価方法は妥当なのか?(ちゃんと変化を起こせるか) • 検出手法の中にどれが一番人工データの変化を検出できるか?
  5. SIBling Framework 複数次元での評価尺度で意味変化を区別 • Sentiment:感情・価値的にネガティブ⇔ポジティブ ◦ 感情辞書を使用 ◦ Valence∊[1,9] ;

    extremely unhappy → extremely happy ◦ 対象単語と共起単語の感情ラベルの平均値 • Intensity:感情的に落ち着いている⇔興奮 ◦ 辞書を使用 ◦ Arousal∊[1,9] ; extremely calm → extremely agitated ◦ Sentimentと同じように算出 • Breadth:意味的に似ていない⇔似ている ◦ 時期内用例文の文ベクトルの Average Pairwise Cosine Distance ◦ なぜ文ベクトルを使うのか …?
  6. LSC-Eval Framework Stage 1 SIBlingの次元にしたがってデータ生成 via ICL/Dic • 対象単語に対して、コーパスから変化次元が中性 (Neutral)となる用例

    を抽出しPromptに与える ◦ 後ほどNeutralに変化を注入 • Sentiment/Intensity: 「与えられた用例の中の対 象単語をよりポジティブ / ネガティブ|落ち着く/ 興 奮するに使う用例を生成して」とLLMに聞く • Breadth: 対象単語と同じ上位語(wordnet参考)を 持つ複数の単語の用例から、その単語を対象単語 で置換 ◦ →他の単語の用例を自分にすることで語義を拡張(語義 が多くなる)
  7. LSC-Eval Framework Stage 1 1. {Neutral | 人工}データから用例をランダムサン プリング •

    Bootstrap Sampling ◦ 全データから50文(重複可)×100回 • Five-year Interval Sampling ◦ 5年分のデータごとに 50文抽出(重複不可)×10回 ◦ 50年分のデータがあるので Time binが10個 2. 人工データ注入割合 Injection Level • 毎回サンプリングした 50文の中にx%が人工 データ x∊[0,20,40,60,80,100] • Stage 2 でモデルのsensitivityを評価
  8. LSC-Eval Framework Stage 1 合成データ統計量 • 心理学関連のコーパス[Vylomova+2019]のみ使 用→ドメインによる変化を除外できる • コーパス時期:1970〜2019;5年区切り •

    対象単語:心理学用語 6つ ◦ abuse, anxiety, depression, mental health, mental illness, trauma ◦ 事前に変化ありとわかった単語集から選んだ ◦ →変化を注入するのであれば変化なし単語でもい けるはず?
  9. LSC-Eval Framework Stage 2 Neutral+人工のデータで変化次元ごとに定量化 • Sentiment (0-1): 時期ごとに対象単語と共起単語の値 の平均をとる(正規化される)

    • Intensity (0-1): Sentimentと同じく • Breadth (0-1): 時期ごとに、その時期の用例集合に対 して、文ベクトルの Average Pairwise Cosine Distance (APD) を算出(正規化される) ◦ 0=変化なし(時期内の語義が近い); ◦ 1=大きく変化(時期内の語義がバラバラ)
  10. LSC-Eval Framework Stage 2 実験設定 • 次元ごとに比較 ◦ Sentiment: ▪

    ABSA (Aspect Based Sentiment Analysis):DeBERTaベースの感情推定モデル ▪ 対象単語の感情を0−1で出力 ◦ Intensity: 当面は比較できる手法がないという( Baselineのみ) ◦ Breadth: ▪ XL-LEXEME (XLL):意味変化検出での最強 Encoderモデル? ▪ MPNet:BERT+XL-NetのSentence Transformer ▪ 文ベクトルを取ってAPDを算出 • Baseline: ◦ SIBlingのスコア(Valence; Arousal; Breadth) ◦ LSC-score: XL-LEXEMEを2つの時期間で算出した意味変化度合
  11. LSC-Eval Framework Stage 3 検出手法の評価基準 • 人工的に作られた変化をどれぐらい捉えられる か • Neutralと合成データでの変化度合の差

    相対変化 Rel. Change Δ% ◦ 人工データ注入割合が 0%と100%の時の次元を比較 ◦ 値が大きいほど変化に Sensitive=うまく検出できる
  12. Results RQ2: 一番人工データの変化を検出できる手法は? →次元ごとに異なる • Sentiment: ABSA > Valence (baseline)

    • Intensity: 2つの時期間の変化度合には無理 • Breadth: XLL > MPNet > LSC-score LSC-scoreはBreadthの変化しか捉えられない →既存の変化度合は特定の変化しか反映できない 木山さんの連続時期の類似度行列 がより精緻な分析 手法なので新の可能性をもたらすかもと言及
  13. Limitation • Breadthの複雑性 ◦ 本研究は語義の拡張(≒一般化)のみモデリング ◦ どの語義がどう拡張されたかは不明 • Intensityに対する研究は不足 ◦

    Intensityに関連するMeiosis(抑言)・Hyperbole(誇張)に言及はない • Metaphor(隠喩)とMetonymy(換喩)を表現できていない