Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介:Dynamic Contextualized Word Embeddings
Search
Taichi Aida
December 16, 2021
Research
2
340
文献紹介:Dynamic Contextualized Word Embeddings
Taichi Aida
December 16, 2021
Tweet
Share
More Decks by Taichi Aida
See All by Taichi Aida
文献紹介:A Multidimensional Framework for Evaluating Lexical Semantic Change with Social Science Applications
a1da4
1
220
YANS2024:目指せ国際会議!「ネットワーキングの極意(国際会議編)」
a1da4
0
94
言語処理学会30周年記念事業留学支援交流会@YANS2024:「学生のための短期留学」
a1da4
1
230
新入生向けチュートリアル:文献のサーベイv2
a1da4
13
8.7k
文献紹介:Isotropic Representation Can Improve Zero-Shot Cross-Lingual Transfer on Multilingual Language Models
a1da4
0
110
文献紹介:WhitenedCSE: Whitening-based Contrastive Learning of Sentence Embeddings
a1da4
1
150
文献紹介:On the Transformation of Latent Space in Fine-Tuned NLP Models
a1da4
0
47
新入生向けチュートリアル:文献のサーベイ
a1da4
0
370
文献紹介:Temporal Attention for Language Models
a1da4
0
270
Other Decks in Research
See All in Research
marukotenant01/tenant-20240916
marketing2024
0
410
MIRU2024_招待講演_RALF_in_CVPR2024
udonda
1
330
Weekly AI Agents News! 8月号 論文のアーカイブ
masatoto
1
160
3次元点群の分類における評価指標について
kentaitakura
0
320
Introducing Research Units of Matsuo-Iwasawa Laboratory
matsuolab
0
650
「並列化時代の乱数生成」
abap34
3
790
第60回名古屋CV・PRML勉強会:CVPR2024論文紹介(AM-RADIO)
naok615
0
240
医療分野におけるLLMの現状と応用可能性について
kento1109
11
3.5k
言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)
yukiar
2
250
クラウドソーシングによる学習データ作成と品質管理(セキュリティキャンプ2024全国大会D2講義資料)
takumi1001
0
250
20240725異文化融合研究セミナーiSeminar
tadook
0
150
大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU 2024】
kentosasaki
2
500
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
Designing the Hi-DPI Web
ddemaree
280
34k
Side Projects
sachag
452
42k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.1k
Visualization
eitanlees
144
15k
Into the Great Unknown - MozCon
thekraken
31
1.5k
Embracing the Ebb and Flow
colly
84
4.4k
Thoughts on Productivity
jonyablonski
67
4.3k
Faster Mobile Websites
deanohume
304
30k
Optimising Largest Contentful Paint
csswizardry
33
2.9k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
3
370
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Transcript
Dynamic Contextualized Word Embeddings Valentin Hofmann, Janet Pierrehumbert, Hinrich Schütze
ACL2021 論文紹介
概要 - 時期・分野情報を考慮(dynamic)しつつ、文脈を 考慮した単語ベクトルを獲得(contextualied)す る手法を提案 - 実験より、 - 時間情報のついたデータの MLM
タスクで基盤となる BERT の ppl を少し改善 - 用例レベルで通時的な単語の意味変化を検出可能 2
Dynamic Contextualized Word Embeddings - 時期・分野情報を考慮した単語ベクトル - 1単語1ベクトル(❌多義語) - 例)独立で学習して線形変換、動的な単語ベクト
ルなど 3 Dynamic Word Embeddings (Bamler and Mandt, 2017)
Dynamic Contextualized Word Embeddings - ❌時期間・分野間を区別せず、1つのモデル - 文脈を考慮した単語ベクトルを生成可能 - 例)ELMo,
BERT など 4 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2017)
Dynamic Contextualized Word Embeddings - 時期/分野間の関係を捉え、 文の情報を埋め込む - 両者の利点を持つ -
最終出力は BERT →下流タスクにも応用可 5
DCWE:全体の流れ 1. BERT の入力層から単語 ベクトル e を獲得 2. 分野 i、時期
j のオフセットを 与え、時期・分野の情報を埋 め込む 3. BERT で前後k単語の文脈 の情報を埋め込む 6
DCWE:全体の流れ 1. BERT の入力層から単語 ベクトル e を獲得 2. 分野 i、時期
j のオフセットを 与え、時期・分野の情報を埋 め込む 3. BERT で前後k単語の文脈 の情報を埋め込む 7
DCWE:オフセットの獲得方法 - 仮定1:平均0のガウス分布から生成される - λa が正則化と同じ役割をする(後述) (p(w|a) = N(w|0, a-1I)
の logp = … + aw2/2) - 仮定2:前の時期から少しずつ動く - 前のオフセットを基に生成、ランダムウォーク - λw も正則化と同じ役割をする(後述) 8
DCWE:オフセットの獲得方法 1. データセットから分野情報のグラフを作成 - 時期の情報は無視する - ノード:ユーザ / 分野 -
辺:ユーザ間の関係 / 分野間の著者一致率 - グラフから node2vec を訓練しておく 9
DCWE:オフセットの獲得方法 1. データセットから分野情報のグラフを作成 - ノード:ユーザ / 分野 - 辺:ユーザ間の関係 /
分野間の著者一致率 2. 時期 j の Graph Attention Network で分野 i の 情報を獲得 - は 1. の node2vec から 3. Feed Forward Network からオフセット生成 10
訓練 - 損失関数: 11
訓練 - 損失関数: - Ltask:目的タスク(MLM, 分類など)に依存 - 最終的な出力は BERT の埋め込み
- そのまま下流タスクに利用可能 12
訓練 - 損失関数: - La, Lw:正則化(オフセットの2つの仮定) - 仮定1:平均0のガウス分布から生成される - 仮定2:前の時期から少しずつ動く
13
実験:マスク言語モデル(MLM) - MLM の perplexity を評価 - データ - ArXiv:2001〜2020年、論文の概要
- Ciao:2000〜2011年、商品レビュー - Reddit:2019年9月〜2020年4月、ユーザの投稿 - YELP:2010年〜2019年、飲食店などのレビュー - 提案手法 DCWE と基盤となる CWE (BERT) を 比較 14
実験:マスク言語モデル(MLM) - MLM の perplexity を評価 - 多くのデータセットで既存の CWE の
ppl (若干) 改善 15
実験:MLM の ablation - 時間、分野をそれぞれ取り除いてみる 16
実験:MLM の ablation - 分野の情報を取り除いても(SA)あまり変化はな い - 時間の情報を取り除く(TA)と悪化する 17
分析:単語の意味変化を検出 - 時間・分野の情報がない単語ベクトルと 各時期・各分野の単語ベクトルの類似度の 標準偏差を算出 - 高い→意味が変化してる? - reddit のデータを分析
18
分析:単語の意味変化を検出 - 標準偏差が高い単語 isolating, testing - 平均より類似度が高いもの:通常の用例 19
分析:単語の意味変化を検出 - 標準偏差が高い単語 isolating, testing - 平均より類似度が低いもの:異なる用例 - 主にコロナ関連 20
DCWE の応用 - 分野間の情報からグラフを作成 - 最終出力は BERT の埋め込み 上記の特徴から、論文内で 2つの応用を提案
- 指定した単語の変化の 様子をグラフに可視化 - 時間情報つきのデータで 分類タスクを解く 21
応用1:指定した単語の変化の様子を分析 - 対象単語 k の最近傍 N 単語における単語 k’ の 順位
r を使った類似度指標を定義 - N:最も近い - 0:そもそも最近傍 N 単語に k’ が出現しない - 各時期・各分野の k について、対応する時期の (全分野で平均した) k’ との類似度を計算 - 分野単位で作成したグラフで可視化 22
応用1:指定した単語の変化の様子を分析 - 対象単語 k:network, 類似度計算に使う単語 k’ :learning(ArXiv) - 2013年の時点で □CS,
◦Phy にあった(NN は 1980s か らあるため)が、類似度低め(薄い赤) - 2016年の転換期を検出できている 23
応用1:指定した単語の変化の様子を分析 - 対象単語 k:mask、類似度計算に使う単語 k’ :vaccine(Reddit) - 2020年3月に一気に広まる様子を捉える(らしい) 24
応用1:指定した単語の変化の様子を分析 - network (Arxiv), mask (Reddit) の時期変化 - random walk
or random flights - walk:過去の時期のノードと隣接している割合 - flights:それ以外(1 - walk) 25
応用1:指定した単語の変化の様子を分析 - network: walk > flight, 徐々に研究が進む様子 - mask: walk
< flight, コロナの急速な蔓延 26
応用2:レビュー分類 - データ:Ciao, YELP - 分類器:最終出力から予測する2層の FFN - Ltask: cross-entropy
- 通常の CWE (BERT)から(若干)性能向上 27
結論 - 時期や分野間の情報を考慮(dynamic)し、文脈 の情報を考慮(contextualized)する単語ベクト ル獲得手法 Dynamic Contextualized Word Embeddings (DCWE)
を提案 - 実験の結果より - 時期データに対応 - 意味変化もそれなりに捉えられる - 最終出力は BERT の埋め込み→下流タスクにも使える 28