論文紹介_LSC-Eval: A General Framework to Evaluate Methods for Assessing Dimensions of Lexical Semantic Change Using LLM-Generated Synthetic Data

Paper Link　｜　相田さんの紹介資料 ACL 2025 Findings 論文読み会 D1 凌　志棟

概要 • 問題：意味変化の種類を予測したいがデータが不足・言語横断できる評価方法がない • 提案手法：意味変化の次元ごとに、変化データを合成し擬似的な変化を作る ◦ Sentiment：感情・価値的にネガティブ⇔ポジティブ ◦ Intensity：感情的に弱い（落ち着いている）⇔強い　→メリハリ？
◦ Breadth：意味的に似ていない⇔似ている • 実験： ◦ 人工データは次元ごとに変化を反映できるか？　 →YES ◦ どの手法が一番変化を検出できるか？　 →次元ごとに違う

<Gay> and its Synonyms in English. [Hamilton+, 2016] gay (1900s)
gay (1990s) 意味変化検出 gay (1950s) flaunting tasteful daft witty bright bisexual lesbian sweet cheerful 結構 (1820s) 結構 (2000s) 布置 (Layout) 構造 (Structure) 充分 · 良好 (splendid) 割と (quite) <結構 (kekko)> and its Synonyms in Japanese.　[Ling+, 2023] 3 単語の意味は時代とともに変わることがあるタスク：大規模データから意味が変わった単語を検出（基本的に教師なし）

タスク自体の変化今までの意味変化検出：単語の意味が変化したのか？ = 0 or 1 単語の意味がどれぐらい変化したのか？ = [0,
1] 最近の意味変化検出[Aida2024]：意味の種類（変わり方）について、種類を知りたい本タスクのチャレンジ： • 意味変化の種類をどのように定義するか • 定義した意味変化の種類をどのように予測・評価するか

今まで評価が直面する問題点 • 通時コーパス由来のベンチマーク不足 →手法の妥当性が定まらない • 単語の意味のなにが変わったのか、次元ごとの評価が難しい先行研究： • [Schlechtweg+2020]
単語がどれぐらい変わったかをアノテーションで算出 ◦ SemEval-2020 Task 1：パターン情報そもそもなかった；データ作成のコストが高い • [Loureiro+2022] TempoWiC：通時的なWord-in-Context in SNS data ◦ Word-in-Context：単語の2つの用例で、対象単語の意味が同じなのかを判断するタスク • [Cassotti+2024] 単語の（旧語義，新語義）のペアで変化パターンを分類 ◦ Wordnetの語義関係を[Blank, 1997]の変化パターンにマッピング、メタファーや意味の漂流を扱わなかった • [Baes+2024] Sentiment / Intensity / Breadth 三軸で意味変化を分類 ◦ 同著者による理論、今回の手法もこの理論によって設計された

本研究の提案：LSC-Eval 合成データを使用するLanguage Independentな評価フレームワーク • ベンチマーク不足 → LLM (ICL)＋辞書で人工データを作ろう •
次元ごとの評価が難しい → 人工データを既存手法の次元で評価、適合性を示す Research Question： • 人工データを用いた評価方法は妥当なのか？（ちゃんと変化を起こせるか） • 検出手法の中にどれが一番人工データの変化を検出できるか？

SIBling Framework [Baes+2024] 複数次元での評価尺度で意味変化を区別 • Sentiment：感情・価値的にネガティブ⇔ポジティブ • Intensity：感情的に弱い（落ち着いている）⇔強い • Breadth：意味的に似ていない⇔似ている
3軸でたくさんの変化類型を表示できるはず↓

SIBling Framework 複数次元での評価尺度で意味変化を区別 • Sentiment：感情・価値的にネガティブ⇔ポジティブ ◦ 感情辞書を使用 ◦ Valence∊[1,9] ;
extremely unhappy → extremely happy ◦ 対象単語と共起単語の感情ラベルの平均値 • Intensity：感情的に落ち着いている⇔興奮 ◦ 辞書を使用 ◦ Arousal∊[1,9] ; extremely calm → extremely agitated ◦ Sentimentと同じように算出 • Breadth：意味的に似ていない⇔似ている ◦ 時期内用例文の文ベクトルの Average Pairwise Cosine Distance ◦ なぜ文ベクトルを使うのか …？

LSC-Eval Framework Stage 1 SIBlingの次元にしたがってデータ生成 via ICL/Dic • 対象単語に対して、コーパスから変化次元が中性 (Neutral)となる用例
を抽出しPromptに与える ◦ 後ほどNeutralに変化を注入 • Sentiment/Intensity: 「与えられた用例の中の対象単語をよりポジティブ / ネガティブ｜落ち着く/ 興奮するに使う用例を生成して」とLLMに聞く • Breadth: 対象単語と同じ上位語（wordnet参考）を持つ複数の単語の用例から、その単語を対象単語で置換 ◦ →他の単語の用例を自分にすることで語義を拡張（語義が多くなる）

Stage 1 Sentiment / Intensity 使用されたPrompt

Stage 1 Sentiment / Intensity Generated Examples 文脈が確かに変わったが、対象単語の語義自体がそこまで変わっていない …？ →意味変化の途中状態をモデリングできた？
人間がはっきりわかる｜感じる意味変化の境界は？と思ったりした

Breadth　単語置換の例

LSC-Eval Framework Stage 1 1. {Neutral | 人工}データから用例をランダムサンプリング •
Bootstrap Sampling ◦ 全データから50文（重複可）×100回 • Five-year Interval Sampling ◦ 5年分のデータごとに 50文抽出（重複不可）×10回 ◦ 50年分のデータがあるので Time binが10個 2. 人工データ注入割合 Injection Level • 毎回サンプリングした 50文の中にｘ%が人工データ x∊[0,20,40,60,80,100] • Stage 2 でモデルのsensitivityを評価

LSC-Eval Framework Stage 1　合成データ統計量 • 心理学関連のコーパス[Vylomova+2019]のみ使用→ドメインによる変化を除外できる • コーパス時期：1970〜2019；5年区切り •
対象単語：心理学用語 6つ ◦ abuse, anxiety, depression, mental health, mental illness, trauma ◦ 事前に変化ありとわかった単語集から選んだ ◦ →変化を注入するのであれば変化なし単語でもいけるはず？

LSC-Eval Framework Stage 2 Neutral＋人工のデータで変化次元ごとに定量化 • Sentiment (0-1): 時期ごとに対象単語と共起単語の値の平均をとる（正規化される）
• Intensity (0-1): Sentimentと同じく • Breadth (0-1): 時期ごとに、その時期の用例集合に対して、文ベクトルの Average Pairwise Cosine Distance (APD) を算出（正規化される） ◦ 0＝変化なし（時期内の語義が近い）； ◦ 1＝大きく変化（時期内の語義がバラバラ）

LSC-Eval Framework Stage 2 実験設定 • 次元ごとに比較 ◦ Sentiment: ▪
ABSA (Aspect Based Sentiment Analysis)：DeBERTaベースの感情推定モデル ▪ 対象単語の感情を0−1で出力 ◦ Intensity: 当面は比較できる手法がないという（ Baselineのみ） ◦ Breadth: ▪ XL-LEXEME (XLL):意味変化検出での最強 Encoderモデル？ ▪ MPNet：BERT＋XL-NetのSentence Transformer ▪ 文ベクトルを取ってAPDを算出 • Baseline： ◦ SIBlingのスコア（Valence; Arousal; Breadth） ◦ LSC-score: XL-LEXEMEを2つの時期間で算出した意味変化度合

LSC-Eval Framework Stage 3 検出手法の評価基準 • 人工的に作られた変化をどれぐらい捉えられるか • Neutralと合成データでの変化度合の差
相対変化 Rel. Change　Δ％ ◦ 人工データ注入割合が 0%と100%の時の次元を比較 ◦ 値が大きいほど変化に Sensitive＝うまく検出できる

Results　 RQ1: 人工データは妥当なの？ →SIBlingの評価では妥当である導入した変化は次元ごとにちゃんと反映される（Injection Level比較するときは時期間で平均をとる）

Results RQ2: 一番人工データの変化を検出できる手法は？ →次元ごとに異なる • Sentiment: ABSA > Valence (baseline)
• Intensity: 2つの時期間の変化度合には無理 • Breadth: XLL > MPNet > LSC-score LSC-scoreはBreadthの変化しか捉えられない →既存の変化度合は特定の変化しか反映できない木山さんの連続時期の類似度行列がより精緻な分析手法なので新の可能性をもたらすかもと言及

Limitation • Breadthの複雑性 ◦ 本研究は語義の拡張（≒一般化）のみモデリング ◦ どの語義がどう拡張されたかは不明 • Intensityに対する研究は不足 ◦
Intensityに関連するMeiosis（抑言）・Hyperbole（誇張）に言及はない • Metaphor（隠喩）とMetonymy（換喩）を表現できていない

Conclusion・まとめ • 本研究はLSC-Evalという意味変化検出のための評価フレームワークを提案 • LLM＋辞書で合成データを生成し、その妥当性を実験で示した • 既存の検出手法を合成データで検証し、限界を示した • 一番の貢献としては：ラベル付き意味変化の正解データの不足を解消 Future
Work • 今後は異なるドメインのコーパスに提案手法を適用 • 特に社会学の研究に適用することが面白そう

論文紹介_LSC-Eval: A General Framework to Evaluate ...

論文紹介_LSC-Eval: A General Framework to Evaluate Methods for Assessing Dimensions of Lexical Semantic Change Using LLM-Generated Synthetic Data

ShitoRyo

More Decks by ShitoRyo

Other Decks in Research

Featured

Transcript

Paper Link　｜　相田さんの紹介資料 ACL 2025 Findings 論文読み会 D1 凌　志棟

<Gay> and its Synonyms in English. [Hamilton+, 2016] gay (1900s)

タスク自体の変化今までの意味変化検出：単語の意味が変化したのか？ = 0 or 1 単語の意味がどれぐらい変化したのか？ = [0,

今まで評価が直面する問題点 • 通時コーパス由来のベンチマーク不足 →手法の妥当性が定まらない • 単語の意味のなにが変わったのか、次元ごとの評価が難しい先行研究： • [Schlechtweg+2020]

本研究の提案：LSC-Eval 合成データを使用するLanguage Independentな評価フレームワーク • ベンチマーク不足 → LLM (ICL)＋辞書で人工データを作ろう •

SIBling Framework [Baes+2024] 複数次元での評価尺度で意味変化を区別 • Sentiment：感情・価値的にネガティブ⇔ポジティブ • Intensity：感情的に弱い（落ち着いている）⇔強い • Breadth：意味的に似ていない⇔似ている

SIBling Framework 複数次元での評価尺度で意味変化を区別 • Sentiment：感情・価値的にネガティブ⇔ポジティブ ◦ 感情辞書を使用 ◦ Valence∊[1,9] ;

LSC-Eval Framework Stage 1 SIBlingの次元にしたがってデータ生成 via ICL/Dic • 対象単語に対して、コーパスから変化次元が中性 (Neutral)となる用例

Stage 1 Sentiment / Intensity 使用されたPrompt

Stage 1 Sentiment / Intensity Generated Examples 文脈が確かに変わったが、対象単語の語義自体がそこまで変わっていない …？ →意味変化の途中状態をモデリングできた？

Breadth　単語置換の例

LSC-Eval Framework Stage 1 1. {Neutral | 人工}データから用例をランダムサンプリング •

LSC-Eval Framework Stage 1　合成データ統計量 • 心理学関連のコーパス[Vylomova+2019]のみ使用→ドメインによる変化を除外できる • コーパス時期：1970〜2019；5年区切り •

LSC-Eval Framework Stage 2 Neutral＋人工のデータで変化次元ごとに定量化 • Sentiment (0-1): 時期ごとに対象単語と共起単語の値の平均をとる（正規化される）

LSC-Eval Framework Stage 2 実験設定 • 次元ごとに比較 ◦ Sentiment: ▪

LSC-Eval Framework Stage 3 検出手法の評価基準 • 人工的に作られた変化をどれぐらい捉えられるか • Neutralと合成データでの変化度合の差

Results　 RQ1: 人工データは妥当なの？ →SIBlingの評価では妥当である導入した変化は次元ごとにちゃんと反映される（Injection Level比較するときは時期間で平均をとる）

Results RQ2: 一番人工データの変化を検出できる手法は？ →次元ごとに異なる • Sentiment: ABSA > Valence (baseline)

Limitation • Breadthの複雑性 ◦ 本研究は語義の拡張（≒一般化）のみモデリング ◦ どの語義がどう拡張されたかは不明 • Intensityに対する研究は不足 ◦