Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Dynamic Contextualized Word Embeddings

Taichi Aida
December 16, 2021

文献紹介:Dynamic Contextualized Word Embeddings

Taichi Aida

December 16, 2021
Tweet

More Decks by Taichi Aida

Other Decks in Research

Transcript

  1. Dynamic Contextualized Word Embeddings - ❌時期間・分野間を区別せず、1つのモデル - 文脈を考慮した単語ベクトルを生成可能 - 例)ELMo,

    BERT など 4 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2017)
  2. DCWE:全体の流れ 1. BERT の入力層から単語 ベクトル e を獲得 2. 分野 i、時期

    j のオフセットを 与え、時期・分野の情報を埋 め込む 3. BERT で前後k単語の文脈 の情報を埋め込む 6
  3. DCWE:全体の流れ 1. BERT の入力層から単語 ベクトル e を獲得 2. 分野 i、時期

    j のオフセットを 与え、時期・分野の情報を埋 め込む 3. BERT で前後k単語の文脈 の情報を埋め込む 7
  4. DCWE:オフセットの獲得方法 - 仮定1:平均0のガウス分布から生成される - λa が正則化と同じ役割をする(後述) (p(w|a) = N(w|0, a-1I)

    の logp = … + aw2/2) - 仮定2:前の時期から少しずつ動く - 前のオフセットを基に生成、ランダムウォーク - λw も正則化と同じ役割をする(後述) 8
  5. DCWE:オフセットの獲得方法 1. データセットから分野情報のグラフを作成 - 時期の情報は無視する - ノード:ユーザ / 分野 -

    辺:ユーザ間の関係 / 分野間の著者一致率 - グラフから node2vec を訓練しておく 9
  6. DCWE:オフセットの獲得方法 1. データセットから分野情報のグラフを作成 - ノード:ユーザ / 分野 - 辺:ユーザ間の関係 /

    分野間の著者一致率 2. 時期 j の Graph Attention Network で分野 i の 情報を獲得 - は 1. の node2vec から 3. Feed Forward Network からオフセット生成 10
  7. 実験:マスク言語モデル(MLM) - MLM の perplexity を評価 - データ - ArXiv:2001〜2020年、論文の概要

    - Ciao:2000〜2011年、商品レビュー - Reddit:2019年9月〜2020年4月、ユーザの投稿 - YELP:2010年〜2019年、飲食店などのレビュー - 提案手法 DCWE と基盤となる CWE (BERT) を 比較 14
  8. DCWE の応用 - 分野間の情報からグラフを作成 - 最終出力は BERT の埋め込み 上記の特徴から、論文内で 2つの応用を提案

    - 指定した単語の変化の 様子をグラフに可視化 - 時間情報つきのデータで 分類タスクを解く 21
  9. 応用1:指定した単語の変化の様子を分析 - 対象単語 k の最近傍 N 単語における単語 k’ の 順位

    r を使った類似度指標を定義 - N:最も近い - 0:そもそも最近傍 N 単語に k’ が出現しない - 各時期・各分野の k について、対応する時期の (全分野で平均した) k’ との類似度を計算 - 分野単位で作成したグラフで可視化 22
  10. 応用1:指定した単語の変化の様子を分析 - 対象単語 k:network, 類似度計算に使う単語 k’ :learning(ArXiv) - 2013年の時点で □CS,

    ◦Phy にあった(NN は 1980s か らあるため)が、類似度低め(薄い赤) - 2016年の転換期を検出できている 23
  11. 応用1:指定した単語の変化の様子を分析 - network (Arxiv), mask (Reddit) の時期変化 - random walk

    or random flights - walk:過去の時期のノードと隣接している割合 - flights:それ以外(1 - walk) 25
  12. 結論 - 時期や分野間の情報を考慮(dynamic)し、文脈 の情報を考慮(contextualized)する単語ベクト ル獲得手法 Dynamic Contextualized Word Embeddings (DCWE)

    を提案 - 実験の結果より - 時期データに対応 - 意味変化もそれなりに捉えられる - 最終出力は BERT の埋め込み→下流タスクにも使える 28