SNLP presentation 20190928

SNLP発表資料東大宮尾研 M1 隅田敦

自己紹介東大宮尾研究室M1の隅田です． Probingに興味があります ◦ BERTのなかみってどうなってるんだろ～ ◦ 問いがふわふわなのでより具体的/特定的に定式化したい ◦ 興味が近い人は是非話しかけて下さい！ YANSで奨励賞を頂きました！
◦ 表彰はされなかったので今宣伝… ◦ まだまだ未熟な研究なのでブラッシュアップしていきたいです！

読む人：東大宮尾研 M1 隅田敦（図表は論文や著者発表資料から抜粋）

概要各次元に一つのsenseが対応する単語埋め込みを提案 senseとは？ ◦ ここでは単語の集まりから想起される意味と定義 ◦ 数学的には，単語上の多項分布で表現 ◦ トピックモデルと似た発想何が嬉しいのか？
◦ 各次元が解釈可能なものとなる ◦ 多義語をうまく表現することが出来る

抽出されたSenseの例

単語共起行列の生成過程以下の生成過程を仮定する．まず各単語についてsense上の多項分布を生成次に以下を2n回繰り返す． • からsense を生成 • が定める多項分布
から単語cを生成 →の前後個のcontext wordを生成．これで単語共起行列Cが生成される．個の上の多項分布

Word2senseの構成変分推論でとを推定 ◦ 推定はマルチコアCPU１個で５時間 ◦ はやい ◦ の埋め込みの第次元目：
◦ 第一項：wがある単語のcontext wordの時に，zがwを生成している確率 ◦ 第二項：前述の生成モデルにおいてwのcontext wordを生成する際にzが選ばれる確率他にもいくつか後処理を行う ◦ 似た単語の分布を持つsenseを階層クラスタリングでmerge ◦ スパースになるよう絶対値上位個の次元以外は０に置き換え，正規化

実験結果 Word similarity ◦ Word2vec, Word2GM, Word2senseで比較 ◦ 全体として，最も精度が良いのはw2v ◦
とはいえword2senseはw2vに匹敵

実験結果 Word entailment ◦ Word2GM, Word2senseで比較 ◦ Word2senseが良い性能を示した

実験結果 Downstream taskで精度評価 ◦ News classification ◦ Noun phrase chunking
◦ Sentiment analysis ◦ Question classification 大体既存手法に匹敵する精度

実験結果: word intrusion task Word intrusion task ◦ 単語の集合から仲間外れ(intruder) を識別出来るか？
◦ 各senseで高いweightを割り当てられている単語上位４個を抽出 ◦ ランダムに選んだ単語（intruder）と合わせた５個をアノテーターに出題 ◦ 人間が仲間外れを識別出来るなら解釈性が高いと判断する

WordCtx2sense 多義語について，文脈からどの意味なのかを判定したい文脈Tのsenseと単語埋め込みのsenseのintersectionを推定する文脈Tの単語がより少数のsenseから生成されていると仮定 ◦ 更新後の埋め込みを , = 1,2, …
とする元のembeddingをTに基づいて更新する ◦ の中で非零な成分が最大でも個となるようにmultiplicative weight updateを使用

WordCtx2sense 文脈Tの単語の生成過程を次のように仮定する ◦ を選び，ここから確率分布 = を得る ◦ から個の単語を生成し，を得る Log perplexity
を最大化するようを学習し，元のembeddingを更新 ◦ 初期値は元のembeddingとし，KL距離を正則化項として追加

実験結果：Word Sense Induction 多義語が含まれた文書群を，意味ごとにクラスタリングするタスク各文章毎にを学習し， ∗ = k をクラスターのラベルとする評価指標は次の二つ
ある二つのinstanceが同じクラスターに属するか否かに関するF-score V-score : homogeneityとcoverageの調和平均 ◦ Homogeneity : 同じラベルを持つinstanceが同じクラスターに入っている割合 ◦ Coverage : 同じクラスターに入っているinstanceが同じラベルを持つ割合

実験結果：Word Sense Induction 既存手法の性能を上回る特にSemEval-2010においては既存手法を大きく上回る性能

実験結果：Contextual similarity 文脈付きの単語の組の類似度を推定するタスクアノテーターに1~10で類似度を答えてもらい，その平均をground truthとするこの類似度との相関で評価を行う MSSG以外の全てのモデルより高性能

まとめ各次元が解釈可能，スパース，多義語を表現出来る単語埋め込みを提案こうした性質がありながらも，様々なタスクで既存手法と同等あるいはそれ以上の性能を発揮さらに文脈毎にどの意味で単語が用いられているのかを推定可能

読む人：東大宮尾研 M1 隅田敦（図表は論文や著者発表資料から抜粋）

概要 Pretrain then fine tuningは様々なNLPタスクにおいて有効 ◦ 学習が安定/簡単 ◦ 汎化性能が高いしかし，これが何故なのかはまだよくわかっていない
Lossを可視化することで理由を探る ◦ ここではpretrain modelとしてBERTを分析対象にした

Lossの可視化：一次元の場合 Fine tuningで得た最終的なパラメタへの方向を1 = 1 − 0 とする損失関数を初期点0 と訓練後パラメータへの方向1
に関して線形補完 ◦ i.e. 0 と1 の内分点で損失関数をプロットする

Lossの可視化 : 二次元の場合二つのデータセットでfine tuningして得たパラメータへの方向1 と2 を軸として可視化それぞれの方向に対して1Dの場合と同じ線形補完を行う

※ Li, H., Xu, Z., Taylor, G., Studer, C., &
Goldstein, T. (2018). Visualizing the loss landscape of neural nets. より

Lossの可視化 : Optimization trajectory 最適化の軌跡を可視化する第エポック時のパラメータへの方向を2Dに射影 ◦ 第エポックの座標が( ,
) 高次元空間の角度とノルムを二次元にそのまま持ってくる

訓練済みBERTは良い初期点である事前訓練済みのBERTからfine tuningする場合と，BERTのweightをランダムに初期化して学習をした場合とを比較 Fine tuningで得た局所解の周辺は滑らか Fine tuningのloss surfaceは最適化が容易な形をしている得た局所解周辺は滑らかで広いので過学習しづらい
• エポック数を増やしてもdev dataにおけるlossが高まりづらい

丘を越えている

MRPCのloss landscapeとoptimization trajectory エポック数を増やしても局所解付近が十分広く滑らかなので他の局所解に移りづらい

Fine tuningすると汎化しやすい局所解付近が滑らかなほど汎化性能が高いという議論がある汎化誤差のloss surfaceが訓練データのloss surfaceと整合的 ◦ 同じように滑らかな局所解に落ちていく

下層ほど一般的で転移可能性が高い層ごとに違う情報を保持している説ある層の訓練結果の方向を考える：可視化してみると，下層のパラメタは動かしてもあまりロスが動かない一方で上層のパラメタは動かすと精度に悪影響を及ぼす

まとめ BERTでfine tuningするのが何故有効なのかについて，可視化により調べた結果， ◦ より幅広い局所解が見つかるので， ◦ 学習が容易で汎化性能も良い ◦ 過学習しづらい ◦
訓練データのloss surfaceとテストデータのloss surfaceに整合性がある ◦ 下層ほど一般的で転移可能性の高い特徴量が含まれているといった事実が示唆された．

議論可視化することで直感的な理解が可能になる一方で結果の評価がやや主観的になってしまう ◦ “Loss surfaceが滑らか”とは？曲率とかで定量的に測れると良いのかも？ ◦ 汎化性能との関連も定量的に測ってみたいところ

SNLP presentation 20190928

SNLP presentation 20190928

Atsushi Sumita

More Decks by Atsushi Sumita

Other Decks in Research

Featured

Transcript

SNLP発表資料東大宮尾研 M1 隅田敦

読む人：東大宮尾研 M1 隅田敦（図表は論文や著者発表資料から抜粋）

概要各次元に一つのsenseが対応する単語埋め込みを提案 senseとは？ ◦ ここでは単語の集まりから想起される意味と定義 ◦ 数学的には，単語上の多項分布で表現 ◦ トピックモデルと似た発想何が嬉しいのか？

抽出されたSenseの例

単語共起行列の生成過程以下の生成過程を仮定する．まず各単語についてsense上の多項分布を生成次に以下を2n回繰り返す． • からsense を生成 • が定める多項分布

Word2senseの構成変分推論でとを推定 ◦ 推定はマルチコアCPU１個で５時間 ◦ はやい ◦ の埋め込みの第次元目：

実験結果 Word similarity ◦ Word2vec, Word2GM, Word2senseで比較 ◦ 全体として，最も精度が良いのはw2v ◦

実験結果 Word entailment ◦ Word2GM, Word2senseで比較 ◦ Word2senseが良い性能を示した

実験結果 Downstream taskで精度評価 ◦ News classification ◦ Noun phrase chunking

実験結果: word intrusion task Word intrusion task ◦ 単語の集合から仲間外れ(intruder) を識別出来るか？

WordCtx2sense 多義語について，文脈からどの意味なのかを判定したい文脈Tのsenseと単語埋め込みのsenseのintersectionを推定する文脈Tの単語がより少数のsenseから生成されていると仮定 ◦ 更新後の埋め込みを , = 1,2, …

WordCtx2sense 文脈Tの単語の生成過程を次のように仮定する ◦ を選び，ここから確率分布 = を得る ◦ から個の単語を生成し，を得る Log perplexity

実験結果：Word Sense Induction 多義語が含まれた文書群を，意味ごとにクラスタリングするタスク各文章毎にを学習し， ∗ = k をクラスターのラベルとする評価指標は次の二つ

実験結果：Word Sense Induction 既存手法の性能を上回る特にSemEval-2010においては既存手法を大きく上回る性能

実験結果：Contextual similarity 文脈付きの単語の組の類似度を推定するタスクアノテーターに1~10で類似度を答えてもらい，その平均をground truthとするこの類似度との相関で評価を行う MSSG以外の全てのモデルより高性能

読む人：東大宮尾研 M1 隅田敦（図表は論文や著者発表資料から抜粋）

概要 Pretrain then fine tuningは様々なNLPタスクにおいて有効 ◦ 学習が安定/簡単 ◦ 汎化性能が高いしかし，これが何故なのかはまだよくわかっていない

Lossの可視化：一次元の場合 Fine tuningで得た最終的なパラメタへの方向を1 = 1 − 0 とする損失関数を初期点0 と訓練後パラメータへの方向1

Lossの可視化 : 二次元の場合二つのデータセットでfine tuningして得たパラメータへの方向1 と2 を軸として可視化それぞれの方向に対して1Dの場合と同じ線形補完を行う

※ Li, H., Xu, Z., Taylor, G., Studer, C., &

Lossの可視化 : Optimization trajectory 最適化の軌跡を可視化する第エポック時のパラメータへの方向を2Dに射影 ◦ 第エポックの座標が( ,

丘を越えている

MRPCのloss landscapeとoptimization trajectory エポック数を増やしても局所解付近が十分広く滑らかなので他の局所解に移りづらい

Fine tuningすると汎化しやすい局所解付近が滑らかなほど汎化性能が高いという議論がある汎化誤差のloss surfaceが訓練データのloss surfaceと整合的 ◦ 同じように滑らかな局所解に落ちていく

まとめ BERTでfine tuningするのが何故有効なのかについて，可視化により調べた結果， ◦ より幅広い局所解が見つかるので， ◦ 学習が容易で汎化性能も良い ◦ 過学習しづらい ◦