Word Embeddings as Metric Recovery in Semantic Spaces

Word Embeddings as Metric Recovery in Semantic Spaces Tatsunori B.
Hashimoto, David Alvarez‒Melis and Tommi S. Jaakkola (TACL 2016) 読む人: 横井祥 (東北大学乾・岡崎研究室 M2) 2016‒09‒11 第8回最先端NLP勉強会 2016‒10‒12 updated ACL Anthology 特に注釈がない限り, 図表は原論文からの引用です.

概要「共起に基づく様々な word embedding 手法は, semantic space (“semantic similarity” を2ノルムとしてよく表せるユ
ークリッド空間) の metric recovery として統一的に理解できる」…という仮説の検証「なんだか分からないけどすごく便利な GloVe とか word2vec に, 数理的＆統一的解釈を与えてみよう」系の論文 ※ ただし, word vector の数理的性質の理解を目的とするのであれば後続の [Aora+, TACL 2016] 推奨前半で扱われてる認知言語学系の研究との接続も面白い「平行四辺形でアナロジー」「(penny, nickel, dime) などの “並ぶ” 概念が直線上に配置される」「近いクラスの単語は近くに集まる」を検証するためのデータセットを作成

word embedding に数理的＆統一的解釈を与えてみようシリーズ [Levy and Goldberg, 2014b] “Neural Word
Embedding as Implicit Matrix Factorization”: 「各 embedding 手法は SPPMI (Shifted Positive PMI) word‒context matrix の行列分解として理解できる」〈vec(w),vec(c)〉≈ max(PMI(w,c) ‒ log k, 0) [Arora+, TACL 2016] “A Latent Variable Model Approach to PMI‒based Word Embeddings”: ランダムウォークする文脈ベクトルから単語ベクトルが生成されるモデルから, 〈v,w〉≈ PMI(v,w) を導出低ランク近似によって「意味方向が, ベクトルの差の第1 主成分に表れること」「学習されたベクトルたちが超球上に集中すること (内積の大きさ ≈ cos の大きさ ∝ 差の 2ノルムの小ささ + k)」も示している

議論の流れ 1. PMIを介して単語ベクトルたちを埋め込んだ空間は, (認知心理学で研究されてきた) semantic space (意味の近さ ≈ ユ
ークリッド距離) と考えるのが自然そう 2. semantic space 上の座標の学習は, “単語間の距離に従うランダムウォークのサンプルパスが文になる” と考えたときに, 元の多様体を低次元ユークリッド空間へ埋め込む多様体学習として理解できる (＝イイ感じの bi‒gram 言語モデルを仮定すると PMI と metric space 上の距離はだいたい同一視できる) → よりダイレクトに metric recovery する学習法を開発した 3. Embedding の良さを検証する新しいタスクも作って実験・検証

1. PMIの大きさ ↔ 意味の近さ ↔ semantic space での距離の小ささ PMI を用いて
“意味の近さ” が距離の近さとなるようなユークリッド空間 (semantic space) に単語を埋め込むのは (= 単語の共起頻度 ↔ 単語ベクトルのユークリッド距離という考え方は) 自然という話

1‒1. 意味の近さ ↔ semantic space での距離の小ささ人間の考える意味の近さを表現する空間として semantic space
(意味の近さ ≈ ユークリッド距離) は良さそう [Rumelhart and Abrahamson, 1973] [Sternberg and Gardner, 1983]

1‒2. 意味の近さ ↔ PMIの大きさ人間の考える意味の近さとPMIには強い正の相関がある [Church and Hanks, 1990]

1‒3. PMIの大きさ ↔ semantic space での距離の小ささ

「semantic space の研究で検討されてきた, (単語の意味の近さという観点での) Nearest Neighbor の統計量 (C, Rf)
の望ましい値 [Tversky and Hutchinson, 1986] 」と「昨今単語ベクトルの学習で用いられているコーパスの (PMIが閾値よりも大きくなる単語ペアを NN と考えた場合の) これらの統計量の推定値」は整合的＝我々が学習対象に用いているコーパスのPMI (分布仮説に基づく類似度?) は semantic space と整合的 cf. free association dataset [Nelson et al., 2004]

2. semantic space の metric recovery を, Markov 言語モデルから生成されるコーパスからの多様体学習と
して定式化

2‒1. 多様体学習非線形な次元削減手法としての “多様体学習” データ点同士のローカルな近さは分かっている空間 (“多様体”) について測地線距離をできるだけ保存して次元削減する (低次元空間の
座標を学習する)

ﬁg: url

ここでの “多様体学習” の気持ちローカルに近い単語 (“Nearest Neighbor”) を繋いだグラフを辿った “パス長” が,
単語間の “距離”としてだいたい保存されるような低次元ユークリッド空間上の座標を学習する cf. 「画像の類似度に関してもローカルな類似度しか有意味でないので多様体学習が必要」

2‒2. Random walk model PMIとユークリッド距離が対応するにはコーパスはいかなる性質を持っていれば良いだろうか？ semantic space の距離を用いた 2‒gram
言語モデルを考える h: 2ノルム → 共起のイイ感じの関数 (sub‒Gaussian)

先の言語モデルから作られるコーパスで共起頻度を見ると semantic space 上の距離を復元できる！気持ち：先の言語モデルに従うコーパスが十分な語彙数およびトークン数を持っていれば, (negative log) 共起頻度 (から
語毎に定まるバイアスを引いたもの) はだいたい semantic space 上のユークリッド距離注：言語モデルは bi‒gram だが, ここでの共起は十分広い窓幅を取る注：この性質は h が未知のままで従う GloVe [Pennington et al., 2014] も word2vec [Mikolov et al., 2013a] もこの観点で理解できる (＝最適化が Lemma 1 の左辺と右辺を近づけていることと等価)

モチベーション

提案手法 (Lemma 1 の左辺と右辺を直接近づける)

3. 検証 3‒1. “metric recovery in semantic space” 問題結果

3‒2. サンプルパスからの “多様体学習” MNISTの256次元のデータ(* 4000)を2次元に圧縮データ毎に20の近傍データを隣接させたグラフ上をランダムウォークして作った “文” の集合からデータのベクトル (2次
元) を学習

ほか, 面白かった話, 所感など semantic space は上位語下位語の関係を上手に埋め込めないらしい「数学で殴るぞ」感「GloVe や
word2vec は結局 bi‒gram しか見ていない」ととれる?

Word Embeddings as Metric Recovery in Semantic Spaces

Word Embeddings as Metric Recovery in Semantic Spaces

Sho Yokoi
PRO

More Decks by Sho Yokoi

Other Decks in Research

Featured

Transcript