文献紹介：Diachronic_Sense_Modeling_with_Deep_Contextualized_Word_Embeddings__An_Ecological_View.pdf

Diachronic Sense Modeling with Deep Contextualized Word Embeddings: An Ecological
View Renfen Hu, Shen Li, Shichen Liang ACL2019, pages 3899–3908 論文紹介

概要 - 文脈を考慮した言語モデルを用いて、1つの単語に対して意味ごとに複数のベクトルを定義 - 3つの貢献 - 意味分類のタスクで 93.8% の精度
- 単語の意味変化を捉えるタスクで先行研究を上回る - 単語の意味変化において、意味間の競争・協力を確認 2

導入 - 時間経過に伴う単語の意味の変化を検出する - apple → apple, - gay(気楽) →
gay(同性愛者) - 先行研究：長期間のコーパスを分割し、時期ごとに単語分散表現を学習 - 前の時期の分散表現 W(t-1) で初期化する (Kim2014[1]) - 回転行列 R(t) を求めて alignment (Hamilton2016[2]) 3

導入 - 先行研究の問題点：1単語に1つのベクトル - 単語のどの意味が変化したのか？ - 単語のどの意味は変化しないのか？ - 文脈を考慮する言語モデル BERT
- 同じ単語でも文脈が異なると違うベクトルになる → BERT を使って単語の意味ごとにベクトルを作成 4

提案手法 1. 調査対象の単語の意味ごとにベクトルを定義 a. 調査対象の単語（対象語）の決定 b. 例文を抽出し、意味ごとにベクトルを獲得 2. 調査対象となる大規模データを分析 a.
単語の意味を割り振る b. 各意味の比率を算出 5

調査対象の単語(対象語)の決定 - 調査対象のコーパス： Corpus of Historical American English (COHA) -
期間：1810年~2009年 - 単語数：400M - コーパス内のジャンルはバランスが取れている - COHA において、以下の条件を満たす単語を意味の変化を調べる対象語とした - 毎年10回以上出現 - 50年以上連続して出現 7

意味ごとにベクトルを定義 - 単語の意味ごとに Oxford dictionary から例文を抽出 - 1つの意味について例文を最大10文抽出 -
4881 語、15386 の意味 8 Oxford dictionary The mean score for this question... You’ll be satisfied with less food, which means you’ll... A mean in mathematics... This sign means that... 意味1(動詞)：意味する意味2(名詞)：平均例）対象語：mean

意味ごとにベクトルを定義 - 事前訓練済みの BERT から各例文における対象語のベクトルを獲得 - 複数の例文で学習したベクトルの平均をその単語の意味ベクトルとする 9
BERT You’ll be satisfied with less food, which means you’ll... This sign means that... 意味1(動詞)：意味する例）対象語：mean ...

大規模データで分析 - BERT で対象語のベクトルを獲得 - 文中に出現する単語　がどの意味に属するか？
- Oxford dictionary の例文から獲得した各意味ベクトルとの cos 類似度がもっとも高くなる意味に割り当てる - 対象語の各意味が出現する割合を調査 - 単語の意味ごとに時間経過による変化を調査することが可能 11

実験：意味の分類タスク - 意味の分類タスク - 意味ごとのベクトルの作成に使用しなかった例文2000文を Oxford dictionary から抽出 -
それぞれの単語がどの意味に属するかを当てる - 評価：accuracy を計算 - 比較手法 - 提案手法(Baseline)：抽出した例文に品詞を与えない - 提案手法(POSあり)：抽出した例文に品詞を付与。定義した意味には品詞が付与されているため、同じ品詞の意味を選べば良いので簡単 12

結果：意味の分類タスク - 提案手法は高い精度で意味の分類を行える - 品詞の情報があると若干向上する(+1.5%) 13

実験：意味変化のスコア付け - Word Change Task - 意味変化の度合いをスコア付けするタスク - テストデータ -
100語(名詞、動詞、形容詞)に意味変化の度合いが4段階でスコア付けされている - 0：全く変化していない, 3：著しく変化 - 比較時期：1960年代から見た1990年代における単語の意味変化 - 使われたコーパス：Google Books Ngram (COHA よりも大規模なデータセット) - 評価 - Pearson の相関係数 - Spearman の順位相関係数 14

実験：意味変化のスコア付け - 意味変化スコアの計算(Lau2012[3]) - reference データ(COHA, 1960年代) と focus データ
(COHA, 1990年代) の各意味の使用比率の比を算出 - 最大値を意味変化のスコアとして採用 15

実験：意味変化のスコア付け - 比較手法： - Local Mutual Information; LMI 行列を用いる。cos 類似
度で意味変化スコアを算出(Gulordava2011[4]) - Topic Model を使用する(Frermann2016[5])。意味変化のスコアは提案手法と同じ Lau2012[3] の方法を採用。 16

結果：意味変化のスコア付け 17

生態学的な観点による単語の意味変化単語の意味変化は以下の2つの生態学的な特徴が見られた - 意味間の競争 - 意味間の協力 18

意味間の競争 - 単語の主要な意味が変化する(=意味同士で競争?) 例：gay(4, 気楽)→(2, 同性愛) 19

意味間の競争 - 単語の主要な意味は単調に変化するわけではない。例：tape(1, 養生)→(4, ビデオ)→(1, 養生) 20

意味間の協力 - 似た意味の比率は同じように変化している - 例：gay(2, 同性愛), (3, 同性愛者) 21

実験：協力し合う意味の自動獲得 - 条件 - 似た意味であること：意味ベクトル間の cos 類似度(r) - 同じ傾向で使用比率が変化すること：Pearson の相関係
数(c) - cos 類似度(r), Pearson の相関係数(c) が共に 0.6 以上の意味ペアを抽出 22

結果：協力し合う意味の自動獲得 23

結果：協力し合う意味の自動獲得 24 主要な意味(2, 同性愛) と共に変化していた意味(3, 同性愛者) を取得

結果：協力し合う意味の自動獲得 25 主要な意味(2, 地球外生命) と共に変化していた意味(3, 空想上の生物) を取得 alien(4, 不慣れ、不快)→(2, 地球外生命)

Conclusions - 文脈を考慮した言語モデル BERT で単語の意味ごとにベクトルを獲得 - 意味分類のタスクで 93.8% の精度
- 単語の意味変化をスコア付けするタスクで先行研究を上回る - 単語の意味変化において、意味間の競争・協力を確認 26

Reference [1] Yoon Kim, Yi-I Chiu, Kentaro Hanaki, Darshan Hegde,
Slav Petrov. Temporal Analysis of Language through Neural Language Models, Workshop on Language Technologies and Computational Social Science, 2014. [link] [2] William L. Hamilton, Jure Leskovec, Dan Jurafsky. Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change, ACL2016. [link] [3] Jey Han Lau, Paul Cook, Diana McCarthy, David Newman, Timothy Baldwin. Word Sense Induction for Novel Sense Detection, EACL2012. [link] [4] Kristina Gulordava, Marco Baroni. A distributional similarity approach to the detection of semantic change in the Google Books Ngram corpus, GEMS2011. [link] [5] Lea Frermann, Mirella Lapata. A Bayesian Model of Diachronic Meaning Change, TACL2016. [link] 27

文献紹介：Diachronic_Sense_Modeling_with_Deep_Contex...

文献紹介：Diachronic_Sense_Modeling_with_Deep_Contextualized_Word_Embeddings__An_Ecological_View.pdf

Taichi Aida

More Decks by Taichi Aida

Other Decks in Research

Featured

Transcript

Diachronic Sense Modeling with Deep Contextualized Word Embeddings: An Ecological

概要 - 文脈を考慮した言語モデルを用いて、1つの単語に対して意味ごとに複数のベクトルを定義 - 3つの貢献 - 意味分類のタスクで 93.8% の精度

導入 - 時間経過に伴う単語の意味の変化を検出する - apple → apple, - gay(気楽) →

導入 - 先行研究の問題点：1単語に1つのベクトル - 単語のどの意味が変化したのか？ - 単語のどの意味は変化しないのか？ - 文脈を考慮する言語モデル BERT

提案手法 1. 調査対象の単語の意味ごとにベクトルを定義 a. 調査対象の単語（対象語）の決定 b. 例文を抽出し、意味ごとにベクトルを獲得 2. 調査対象となる大規模データを分析 a.

提案手法 1. 調査対象の単語の意味ごとにベクトルを定義 a. 調査対象の単語（対象語）の決定 b. 例文を抽出し、意味ごとにベクトルを獲得 2. 調査対象となる大規模データを分析 a.

調査対象の単語(対象語)の決定 - 調査対象のコーパス： Corpus of Historical American English (COHA) -

意味ごとにベクトルを定義 - 単語の意味ごとに Oxford dictionary から例文を抽出 - 1つの意味について例文を最大10文抽出 -

意味ごとにベクトルを定義 - 事前訓練済みの BERT から各例文における対象語のベクトルを獲得 - 複数の例文で学習したベクトルの平均をその単語の意味ベクトルとする 9

提案手法 1. 調査対象の単語の意味ごとにベクトルを定義 a. 調査対象の単語（対象語）の決定 b. 例文を抽出し、意味ごとにベクトルを獲得 2. 調査対象となる大規模データを分析 a.

大規模データで分析 - BERT で対象語のベクトルを獲得 - 文中に出現する単語　がどの意味に属するか？

実験：意味の分類タスク - 意味の分類タスク - 意味ごとのベクトルの作成に使用しなかった例文2000文を Oxford dictionary から抽出 -

結果：意味の分類タスク - 提案手法は高い精度で意味の分類を行える - 品詞の情報があると若干向上する(+1.5%) 13

実験：意味変化のスコア付け - Word Change Task - 意味変化の度合いをスコア付けするタスク - テストデータ -

実験：意味変化のスコア付け - 意味変化スコアの計算(Lau2012[3]) - reference データ(COHA, 1960年代) と focus データ

実験：意味変化のスコア付け - 比較手法： - Local Mutual Information; LMI 行列を用いる。cos 類似

結果：意味変化のスコア付け 17

生態学的な観点による単語の意味変化単語の意味変化は以下の2つの生態学的な特徴が見られた - 意味間の競争 - 意味間の協力 18

意味間の競争 - 単語の主要な意味が変化する(=意味同士で競争?) 例：gay(4, 気楽)→(2, 同性愛) 19

意味間の競争 - 単語の主要な意味は単調に変化するわけではない。例：tape(1, 養生)→(4, ビデオ)→(1, 養生) 20

意味間の協力 - 似た意味の比率は同じように変化している - 例：gay(2, 同性愛), (3, 同性愛者) 21

実験：協力し合う意味の自動獲得 - 条件 - 似た意味であること：意味ベクトル間の cos 類似度(r) - 同じ傾向で使用比率が変化すること：Pearson の相関係

結果：協力し合う意味の自動獲得 23

結果：協力し合う意味の自動獲得 24 主要な意味(2, 同性愛) と共に変化していた意味(3, 同性愛者) を取得

結果：協力し合う意味の自動獲得 25 主要な意味(2, 地球外生命) と共に変化していた意味(3, 空想上の生物) を取得 alien(4, 不慣れ、不快)→(2, 地球外生命)

Conclusions - 文脈を考慮した言語モデル BERT で単語の意味ごとにベクトルを獲得 - 意味分類のタスクで 93.8% の精度

Reference [1] Yoon Kim, Yi-I Chiu, Kentaro Hanaki, Darshan Hegde,