Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介
Search
Atom
September 02, 2019
0
52
文献紹介
Atom
September 02, 2019
Tweet
Share
More Decks by Atom
See All by Atom
文献紹介 / Structure-based Knowledge Tracing: An Influence Propagation View
roraidolaurent
0
76
文献紹介 / Knowledge Tracing with GNN
roraidolaurent
0
76
文献紹介 / Non-Intrusive Parametric Reduced Order Models withHigh-Dimensional Inputs via Gradient-Free Active Subspace
roraidolaurent
0
45
ニューラルネットワークのベイズ推論 / Bayesian inference of neural networks
roraidolaurent
1
2.7k
Graph Convolutional Networks
roraidolaurent
0
200
文献紹介 / A Probabilistic Annotation Model for Crowdsourcing Coreference
roraidolaurent
0
54
文献紹介Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time
roraidolaurent
0
83
文献紹介/ Bayesian Learning for Neural Dependency Parsing
roraidolaurent
0
88
ポッキー数列の加法定理 / Pocky number additon theorem
roraidolaurent
0
190
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
GitHub's CSS Performance
jonrohan
1030
460k
The Power of CSS Pseudo Elements
geoffreycrofte
73
5.3k
Agile that works and the tools we love
rasmusluckow
327
21k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
130
Side Projects
sachag
452
42k
Typedesign – Prime Four
hannesfritz
40
2.4k
Into the Great Unknown - MozCon
thekraken
32
1.5k
Bash Introduction
62gerente
608
210k
The Art of Programming - Codeland 2020
erikaheidi
52
13k
Building Your Own Lightsaber
phodgson
103
6.1k
Transcript
Bayesian Compression for Natural Language Processing 文献紹介 2019/9/2 長岡技術科学大学 自然言語処理研究室
吉澤 亜斗武
Abstract ・RNNのようなモデルは膨大なパラメータを必要とする. ・特に語彙の長さに比例してサイズが大きくなる埋め込み層に 大部分のパラメータが集中している. ・RNNのベイジアンスパース化を提案した. ・また,不要な単語を削除すことで,さらにRNNを圧縮し, 単語の選択について議論した. 2 Sparse VD
1. Introduction ・先行研究ではSparse Variational Dropout (Sparse VD) がある. ・RNNへの適用は調査されていない. ・自然言語処理のタスクでは語彙との関連がつよい最初の層
(埋め込み層)にRNNの重みの大部分が集中する. ・一部のタスクでは不要な単語が存在する場合があり, フィルタリングが必要 3
1. Introduction ・本論文では,Sparse VD をRNNに適合し,単語に重みをかけ, 語彙をスパース化させた. ・Sparse VDが大幅な品質の低下をなしに,大きなスパース性を もたらすことを示した. ・語彙のスパース化では,分類タスクでは圧縮率を高めますが,
言語モデルのタスクでは役に立たないことがわかった. 4
2. Related Work 5 ・先行研究では各ニューロンに対応するグループごとにLSTMの 重みを取り除くことを提案 ・ベイジアンNNでは重みはランダム変数として表され, 事前分布として表され,トレーニングで事後分布に変換される. ・ベイジアンスパース化はプルーニング手法と比較して, ハイパーパラメータの数が少なく,スパース性が高い.
・RNNの特徴を考慮してSparse VDを適応させる.
3.1 Notations 6 RNNについて
3.2 Sparse variational dropout for RNNs 7
3.2 Sparse variational dropout for RNNs 8
3.2 Sparse variational dropout for RNNs 9 reparametrization trick(積分を計算可能に) 先行研究では,local
reparametrization trickを用いているが, RNNでは時系列データを用いるため,厳密には使えない .
3.2 Sparse variational dropout for RNNs 10 reparametrization trick(積分を計算可能に) どのタイミングでサンプリングするかが問題になる.
先行研究では,local reparametrization trickを用いているが, RNNでは時系列データを用いるため,厳密には使えない .
3.2 Sparse variational dropout for RNNs 11 ・トレーニングの手順(ミニバッチ) (1)全ての重みをサンプリングして,通常通りRNNに適用 (2)Eq.(1)の勾配をθ,logσ,Bで計算.
・Eq.(2)より, θが極端に小さいものと,分散が大きいもの は0に近づき,スパース化される.
3.3 Multiplicative weights for vocabulary sparsification 12 ・ベイジアンスパース化の利点は,グループ(層)ごとの スパース化に拡張できる. ・入力のone-hot
ベクトルに確率的重み ∈ をかける ・ はミニバッチごとに重み同様に因子分解された正規分布で近似 ・トレーニング後, の要素が低いものをθとσの比率をもとに 削除し,その語彙に対応する単語を使用せず,重み行列から 該当する行を削除.
4 Experiments 13 ・テキスト分類のタスク ・IMDb:2値分類 ・AGNews:4クラス分類 頻度の高い20000語に両方のデータセットを揃える. ・言語モデリングのタスク ・Penn Treebankコーパス(Marcus
et al、1993) 文字レベル,単語レベル
4.1 Text Classification 14 ・品質を大幅に落とすことなく,圧縮率を高める ・分類には重要な単語のみを読めば良いことがわかる.
4.1 Text Classification 15 ・2値分類に重要そうな単語が残り,分類出来ている.
4.2 Language Modeling 16 ・文字は語彙数が少なく,すべて重要でありほとんど減らない ・単語においても,語彙数はスパース化しないほうが精度が高い.
5. Conclusions 17 ・Sparse VDをRNNに適用し,重みのθとσの比が一定以下の ものを重みを削除することで,品質を落とさずスパース化した ・分類タスクでは,かなり圧縮できたが,言語モデルのタスク では単語のほとんどが重要であり,語彙のスパース化はタスク を困難に品質の低下につながることがわかった.