Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介_Learning Dynamic Contextualised Word Embed...

Lexuss-D
January 10, 2024

論文紹介_Learning Dynamic Contextualised Word Embeddings via Template-based Temporal Adptation

Lexuss-D

January 10, 2024
Tweet

More Decks by Lexuss-D

Other Decks in Research

Transcript

  1. 概要 この論文何やった: 時期や社会環境の違いによる語義変化に言語モデルを適応させるために、 Promptを用いたDynamic Contextualized Word Embedding (DCWE)の学習 貢献 •

    Promptを利用してMLMを時間適応するための方法を提案 • 先行研究の手法より性能がよい+効率が良い 2 時間や社会などの言語外要素 に対応する表現 文脈を考慮した単語表現
  2. 関連研究 • Dynamic Word Embedding (DWE) ◦ Word2VecやLSTMを学習するときに、言語外の情報(時間・社会)を Encode [Welch

    et al.2020] ◦ 社会要因より時間が語義に多く影響を与える [Hoffman et al. 2021] • Dynamic Contextualized Word Embedding (DCWE) ◦ DCWEs: 時間・社会情報をType-based表現にEncodeし、Token-based表現に変換[Hoffman et al. 2021] ◦ ↑以前相田さんが紹介した ◦ TempoBERT:訓練テキストに時期 Tokenを加え、それをMaskしてBERTに当てさせる[Rosin et al.2022] 今回の提案手法はContextualized Word Embedding を時間適応することを目的 3
  3. Prompt-based Time Adaptation Main idea:2つの時期に意味変化が起きた頻出単語を使ってPromptを作る。 異なる時期T1 T2のコーパスC1 C2に対して Pivot単語w 、

    Anchor単語u,v wはC1 C2に頻出な単語、u,v はC1,C2においてwと関連する単語 このような(w,u,v)をTupleといい、これによってpromptを作成 4
  4. Tuple Selection Methods Context-based • PMIでAnchorを探すのは2つの問題がある ◦ コーパス内の低頻度語に対応しにくい ◦ PMIは一回2つの単語しか扱えない、他の文脈語に対応できない

    • 単語xの平均ベクトル: • Tuple(w,u,v)に対して、C1の単語をw1,u1,v1、C2の単語をw2,u2,v2 g(a,b)はaとbのCos類似度 このように得られたTupleは 8
  5. Prompts Generation Prompts from manual templates • 人手で書いたテンプレートに穴埋め:e.g. <w> is

    associated with <u> in <T1>, whereas it is associated with <v> in <T2> <〇>にTuple(w,u,v)とu,vの時期T1 T2を入れる 10
  6. Prompts Generation Prompts from automatic templates • Tuple(w,u,v)用いて、T5でPromptを自動生成 • 変換ルール      に従って生成

    uの用例S 1 とvの用例S 2 をそれぞれC1,C2から抽出 最後にBeam searchで多様なPromptを獲得する 11
  7. Expriments Datasets • Yelp: 2010 & 2020 • Reddit: 2019.9~2020.4

    • ArXiv: 2001 & 2020 • Ciao: 2000 & 2011 Evaluation Metric T2でのPerplexity : lower the better 14 Baselines: • BERT-base-uncased • BERT(T1):T1でFine-tuning • BERT(T2):T2でFine-tuning • FT(model,template):提案手法 Hyperparameters • weight decay=0.01 • batch size=4 • learning rate=3x10-8 • k={500,1000,2000,5000,10000} • Epoch=20