Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
GloVe: Global Vector for Word Representation
Search
takegue
March 12, 2015
0
560
GloVe: Global Vector for Word Representation
takegue
March 12, 2015
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
820
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.2k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1k
Rettyにおけるデータ活用について
takegue
0
860
Sparse Overcomplete Word Vector Representations
takegue
0
200
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
200
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
Dependency-based empty category detection via phrase structure trees
takegue
0
70
Featured
See All Featured
Side Projects
sachag
452
42k
Statistics for Hackers
jakevdp
796
220k
KATA
mclloyd
29
14k
How GitHub (no longer) Works
holman
310
140k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
6.8k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Optimizing for Happiness
mojombo
376
70k
5 minutes of I Can Smell Your CMS
philhawksworth
202
19k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
130
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
27
4.3k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
506
140k
Transcript
文献紹介ゼミ Glove: Global Vectors for Word Representation 長岡技術科学大学 4年 竹野
峻輔 ※ スライド中の図・式等は基本的に論文中より引用したものです
Overview • Global な contextを考慮した分散表現の提案 – 共起頻度による重み付け – NER タスク
と word analogy tasksにおいて Skip-gram, CBoW(word2vec)よりも優れた成績 • 既存の分散表現と提案手法の比較・分析 – word2vecやvLBLといった手法は 重み付けクロスエントロピーを最小化したものと見なせる
Intro • 語彙の one-hot label表現は sparse(疎)な表現. – 行列演算するときは早くなる → 嬉しい.
– 統計的には sparse 過ぎる ≒ ノイズが多い → 嬉しくない • テキストには そもそもノイズが多いもの(揺らぎが多い) – 「蝶」,「ちょうちょ」,「てふてふ」,「バタフライ」 • ノイズを減らすために必要なのは データの平均化 • 人の認識的には「蝶」=「ちょうちょ」 – 潜在的な意味が存在するはず (少なくとも人は) → トピックモデル(LSA) – 似た単語は似た表現となるような 表現がほしい(≒表現の汎化)
Intro • どのようにしてテキストを タスクに合った表現 に変換 するか – タスク • NER,
POS-taggin, 文書分類 etc... – 表現方法 • BoW(one-hot) • TF-IDF, PMI • 潜在的トピックモデル (LSA…) • 主成分解析(PCA), SVD • 近年の教師なし学習による分散表現の台頭 – Skip-gram, CBoWモデル(word2vec, LBL)
Intro • 近年の教師なし学習による分散表現の台頭 – Skip-gram, CBoWモデル(word2vec, LBL) – 高次元で離散的な単語表現を 低次元で連続的な単語表現へと変換する(Word
Embedding) –
Globalな表現 と Localな表現 Global matrix factorization methods(i.e. LSA) – コーパスの全体的な傾向を見て
タスクにとって有効な潜在的な意味表現を獲得 – Word analogy task では効果が低い → 森(corpus)を見て木(word)を見ず • Local context window methods (i.e. Skip-gram(word2vec) ) – 分布仮説的な考え方: windowをスライドしながら コーパス全体見ることで 意味表現を獲得 – Word analogy task では効果高い → 木(word)を見て森(corpus)を見ず
望ましい分散表現 • W3 が W1, W2に意味が 近いか わかる尺度 – W1=ice,
W2=steam の時 W3=solid 〜 ice – W1=ice, W2=steam の時 W3=gas 〜 steam – W1=ice, W2=steam の時 W3=water 〜どちらでもない – W1=ice, W2=steam の時 W3=fashion〜どちらでもない → 共起頻度の比(のlogをとったもの)
既存の分散表現モデルとの比較 • Skip-gram(word2vec) 〜 重み付きcross-entropy を 最小化した時の表現 • GloVe 〜Skip-gram
のモデルを共起頻度で重みづ け など工夫を加えることで改良したもの
既存の分散表現モデルとの比較 • 共起頻度で重み付け → よく共起する 単語の関係が 学習されやすい → ノイズの少ない単語の関係に焦点をあてる.
GloVeの性能の比較 Word Analogy Task NER Word similarity tasks
学習曲線