Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介_What is Done is Done_ an Incremental Appro...

論文紹介_What is Done is Done_ an Incremental Approach to Semantic Shift Detection

Lexuss-D

July 14, 2022
Tweet

More Decks by Lexuss-D

Other Decks in Research

Transcript

  1. Introduction • 通時的な語義変化検出での単語分散表現 ◦ Word based representation ▪ 単語ごとにEmbeddingを与える ◦

    Type based representation(Contextualized representation) ▪ 用例ごとにEmbeddingを与える • BERT / ELMo / … ◦ 一般的には、BERTなどの事前訓練済みモデルの方が性能が高い 3
  2. • 通時的な語義変化検出での分類手法 ◦ 教師あり手法 ▪ Dictionary based:予め辞書から語義を用意し、用例がどの語義に近いかを基準に分類 ▪ 問題点: •

    辞書に記載されていない語義は考慮されない • Low-resource言語だと応用しにくい ◦ 教師なし手法 ▪ Clustering based:モデルから得られたベクトルを教師なしクラスタリング手法で分類し、ベク トルのクラスタ分布変化を定量評価 • Scalability Issue:大量なデータがあるとき、メモリと計算時間が問題 • Scalable手法:ベクトル数を削減 & 次元削減 ◦ Uninterpretable 結果 ◦ 急激な変化を見落としやすい Introduction 4
  3. The WiDiD Approach • 異なる時期の用例を含むCorpus • 1時期分のデータを入力 • 対象単語wに用例を抽出 •

    (Fine-tuningされた)モデルからベクトルを抽出 • クラスタリング ◦ Affinity Propagation a Posteriori (APP) ◦ Affinity Propagationベースの手法 • クラスタのRefinement ◦ 要素数が少ないクラスタを除外 ◦ 長時間更新されていないクラスタを計算から除外 ▪ Aging indexを使用 ▪ 新しい用例がクラスタに入っていない →この 語義がもう使われていない • 語義変化の測定 ◦ 語義変化スコアを出力 6
  4. Semantic Shift Measuring • Jensen-Shannon divergence (JSD) • Distance between

    prototype embeddings (PDIS) • Difference between prototype embedding diversities (PDIV) 値が高ければ高いほど変 化が大きい 11
  5. Evaluation of WiDiD • SemEval-2020 Subtask 2 ◦ Ranking: rank

    a set of target words according to their degree of LSC between C1 and C2. ◦ 単語に人手アノテーションした change scoreが付けられる ▪ Graded score : (変わっていない)0.0 ~ 1.0(変わった) 12
  6. Evaluation of WiDiD • 言語はEnglishとLatin • Word Repersentation (contextualize) ◦

    BERT base uncased for English ◦ BERT base multilingual for Latin ◦ 最後の4層のSumを使用 • Pseudo-Word Representation (static) ◦ 訓練済みのDoc2Vec ▪ 単語ごとにベクトルを付与する 13
  7. Evaluation of WiDiD • クラスタリング手法 ◦ APP(ours) ◦ AP ◦

    IAPNA ▪ APPと同じく、APベースのIncrementalな手法 ▪ 新しく来たベクトルと過去のベクトルとの responsbility & availability index を更新 14
  8. Experiment Setting • 3種類のクラスタリング手法 ◦ AP、APP(ours)、IAPNA • 三つの語義変化スコア計算方法 ◦ JSD、PDIS、PDIV

    ◦ Baseline : CD(cosine distance), DIV(Difference between Token Embedding Diversities) • 2種類のEmbedding ◦ BERT(pre-trained)、Doc2Vec(trained) 15
  9. Conclusion • Incremental clustering を利用した語義変化検出手法を提案 • シェアタスクで評価、BERTでいい性能が出た • Future Work

    ◦ Fine-tuningされたモデルを利用しクラスタリングの性能を向上させる ◦ 語義の推移を測定する際に、クラスタの aging policyを考える。 18