Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Temporal Attention for Language Models

文献紹介:Temporal Attention for Language Models

Taichi Aida

June 08, 2022
Tweet

More Decks by Taichi Aida

Other Decks in Research

Transcript

  1. 概要 - 通時的なデータに対応させるため、時期特有の 重みを与える Temporal Attention を提案 - 実験より、 -

    3言語の意味変化検出タスクで最高性能 - 以前提案した手法との組み合わせで更に性能↑ 2
  2. 通時的な意味変化の検出 - 時期の異なる文書を比較し、意味が変わっている 単語を検出する - zoom (Web 会議) - 最近は

    BERT などのモデルで単語の出現毎にベ クトルを獲得する手法が人気 - 辞書で語義ごとのベクトルを準備し、分類(Hu+19) - クラスタリングで語義を分類(Giulianelli+20, Montariol+21) 3
  3. 解決方法 - 対象のデータで1から訓練する(Aida+21, Loureiro+22, Qiu+22) - 膨大な計算資源が必要 - 事前学習済み言語モデルを調整する -

    単純に fine-tuning(Martinc+20) - 時間タグを文につけて MLM (Rosin+22)同じ著者! - 簡単、高性能 5
  4. (復習)一般的な Self-Attention - Q, K, V はそれぞれ query, key, value

    の重みと 入力 X との積 - X は入力する単語ベクトル 7
  5. 提案手法:Temporal Attention - 方針:「対応する時間ベクトルを計算することで、 ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル Xt を用意し、Xt から時期特有の重

    みを計算する行列 Wt を作成 - query, key, value の重み行列 Wq, Wk, Wv と同じ次元 - 以下のように時期特有の Attention を計算 ただし、 10
  6. 提案手法:Temporal Attention - 方針:「対応する時間ベクトルを計算することで、 ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル xt を用意し、xt から時期特有の重

    みを計算する行列 Wt を作成 - query, key, value の重み行列 Wq, Wk, Wv と同じ次元 - 以下のように時期特有の Attention を計算 ただし、 11 通常の Self-Attention
  7. 結果:意味変化検出 - Scaled(baseline) vs Temporal(提案) - 全ての言語で提案手法が上回る 15 - Scaled

    Linear:時期の index を直接割り当てる - Scaled Exp.:時期の index で2を累乗し、割り当てる - Scaled by Doc:該当時期の文書数の比率を割り当てる 囲った部分を変更する (重み行列 Wt 無し)
  8. 結果:BERT のサイズによる違い - SemEval-2020 Task 1、英語 - tiny モデル+提案手法(Temp. Att.)が最高

    - 通時適応程度なら小さいサイズのモデルで十分? - 他の言語でも調べる必要がある 19
  9. 結論 - 通時的なデータに対応させるため、時期特有の 重みを与える Temporal Attention を提案 - 実験より、 -

    3言語の意味変化検出タスクで最高性能 - 以前提案した手法との組み合わせで(英語だと)更に性能↑ 20
  10. 参考文献 - [Hu+19] Diachronic Sense Modeling with Deep Contextualized Word

    Embeddings: An Ecological View, ACL2019 - [Giulianelli+20] Analysing Lexical Semantic Change with Contextualised Word Representations, ACL2020 - [Montariol+21] Scalable and Interpretable Semantic Change Detection, NAACL2021 - [Loureiro+22] TimeLMs: Diachronic Language Models from Twitter, ACL2022 Demo - [Aida+21] A Comprehensive Analysis of PMI-based Models for Measuring Semantic Differences, PACLIC2021 - [Qiu+22] HistBERT: A Pre-trained Language Model for Diachronic Lexical Semantic Analysis, arxiv - [Martinc+20] Leveraging Contextual Embeddings for Detecting Diachronic Semantic Shift, LREC2020 - [Rosin+22] Time Masking for Temporal Language Models, WSDM2022 21