GloVe: Global Vector for Word Representation

文献紹介ゼミ Glove: Global Vectors for Word Representation 長岡技術科学大学４年竹野
峻輔 ※ スライド中の図・式等は基本的に論文中より引用したものです

　Overview • Global な contextを考慮した分散表現の提案 – 共起頻度による重み付け – NER タスク
と word analogy tasksにおいて Skip-gram, CBoW(word2vec)よりも優れた成績 • 既存の分散表現と提案手法の比較・分析 – word2vecやvLBLといった手法は重み付けクロスエントロピーを最小化したものと見なせる

Intro • 語彙の one-hot label表現は sparse(疎)な表現. – 行列演算するときは早くなる → 嬉しい.
– 統計的には sparse 過ぎる ≒ ノイズが多い → 嬉しくない • テキストにはそもそもノイズが多いもの（揺らぎが多い） – 「蝶」，「ちょうちょ」，「てふてふ」，「バタフライ」 • ノイズを減らすために必要なのはデータの平均化 • 人の認識的には「蝶」＝「ちょうちょ」 – 潜在的な意味が存在するはず（少なくとも人は） → トピックモデル(LSA) – 似た単語は似た表現となるような表現がほしい（≒表現の汎化）

Intro • どのようにしてテキストをタスクに合った表現に変換するか – タスク • NER,
POS-taggin, 文書分類 etc... – 表現方法 • BoW(one-hot) • TF-IDF, PMI • 潜在的トピックモデル (LSA…) • 主成分解析(PCA), SVD • 近年の教師なし学習による分散表現の台頭 – Skip-gram, CBoWモデル(word2vec, LBL)

Intro • 近年の教師なし学習による分散表現の台頭 – Skip-gram, CBoWモデル(word2vec, LBL) – 高次元で離散的な単語表現を低次元で連続的な単語表現へと変換する（Word
Embedding） –

Globalな表現と Localな表現 Global matrix factorization methods(i.e. LSA) – コーパスの全体的な傾向を見て
タスクにとって有効な潜在的な意味表現を獲得 – Word analogy task では効果が低い → 森(corpus)を見て木(word)を見ず • Local context window methods (i.e. Skip-gram(word2vec) ) – 分布仮説的な考え方： windowをスライドしながらコーパス全体見ることで意味表現を獲得 – Word analogy task では効果高い → 木(word)を見て森(corpus)を見ず

望ましい分散表現 • W3 が W1, W2に意味が近いかわかる尺度 – W1=ice,
W2=steam の時 W3=solid 〜 ice – W1=ice, W2=steam の時 W3=gas 〜 steam – W1=ice, W2=steam の時 W3=water 〜どちらでもない – W1=ice, W2=steam の時 W3=fashion〜どちらでもない → 共起頻度の比(のlogをとったもの)

既存の分散表現モデルとの比較 • Skip-gram(word2vec) 〜重み付きcross-entropy を最小化した時の表現 • GloVe 〜Skip-gram
のモデルを共起頻度で重みづけなど工夫を加えることで改良したもの

既存の分散表現モデルとの比較 • 共起頻度で重み付け → よく共起する単語の関係が学習されやすい → ノイズの少ない単語の関係に焦点をあてる．

GloVeの性能の比較 Word Analogy Task NER Word similarity tasks

学習曲線

GloVe: Global Vector for Word Representation

GloVe: Global Vector for Word Representation

takegue

More Decks by takegue

Featured

Transcript

文献紹介ゼミ Glove: Global Vectors for Word Representation 長岡技術科学大学４年竹野

Overview • Global な contextを考慮した分散表現の提案 – 共起頻度による重み付け – NER タスク

Intro • 語彙の one-hot label表現は sparse(疎)な表現. – 行列演算するときは早くなる → 嬉しい.

Intro • どのようにしてテキストをタスクに合った表現に変換するか – タスク • NER,

Intro • 近年の教師なし学習による分散表現の台頭 – Skip-gram, CBoWモデル(word2vec, LBL) – 高次元で離散的な単語表現を低次元で連続的な単語表現へと変換する（Word

Globalな表現と Localな表現 Global matrix factorization methods(i.e. LSA) – コーパスの全体的な傾向を見て

望ましい分散表現 • W3 が W1, W2に意味が近いかわかる尺度 – W1=ice,

既存の分散表現モデルとの比較 • Skip-gram(word2vec) 〜重み付きcross-entropy を最小化した時の表現 • GloVe 〜Skip-gram

既存の分散表現モデルとの比較 • 共起頻度で重み付け → よく共起する単語の関係が学習されやすい → ノイズの少ない単語の関係に焦点をあてる．

GloVeの性能の比較 Word Analogy Task NER Word similarity tasks

学習曲線