Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介
Search
Atom
September 02, 2019
0
54
文献紹介
Atom
September 02, 2019
Tweet
Share
More Decks by Atom
See All by Atom
文献紹介 / Structure-based Knowledge Tracing: An Influence Propagation View
roraidolaurent
0
76
文献紹介 / Knowledge Tracing with GNN
roraidolaurent
0
77
文献紹介 / Non-Intrusive Parametric Reduced Order Models withHigh-Dimensional Inputs via Gradient-Free Active Subspace
roraidolaurent
0
47
ニューラルネットワークのベイズ推論 / Bayesian inference of neural networks
roraidolaurent
1
2.7k
Graph Convolutional Networks
roraidolaurent
0
210
文献紹介 / A Probabilistic Annotation Model for Crowdsourcing Coreference
roraidolaurent
0
56
文献紹介Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time
roraidolaurent
0
87
文献紹介/ Bayesian Learning for Neural Dependency Parsing
roraidolaurent
0
96
ポッキー数列の加法定理 / Pocky number additon theorem
roraidolaurent
0
190
Featured
See All Featured
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.1k
Building Applications with DynamoDB
mza
93
6.2k
YesSQL, Process and Tooling at Scale
rocio
170
14k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
Faster Mobile Websites
deanohume
305
30k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Building Adaptive Systems
keathley
38
2.4k
A better future with KSS
kneath
238
17k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Designing Experiences People Love
moore
139
23k
Transcript
Bayesian Compression for Natural Language Processing 文献紹介 2019/9/2 長岡技術科学大学 自然言語処理研究室
吉澤 亜斗武
Abstract ・RNNのようなモデルは膨大なパラメータを必要とする. ・特に語彙の長さに比例してサイズが大きくなる埋め込み層に 大部分のパラメータが集中している. ・RNNのベイジアンスパース化を提案した. ・また,不要な単語を削除すことで,さらにRNNを圧縮し, 単語の選択について議論した. 2 Sparse VD
1. Introduction ・先行研究ではSparse Variational Dropout (Sparse VD) がある. ・RNNへの適用は調査されていない. ・自然言語処理のタスクでは語彙との関連がつよい最初の層
(埋め込み層)にRNNの重みの大部分が集中する. ・一部のタスクでは不要な単語が存在する場合があり, フィルタリングが必要 3
1. Introduction ・本論文では,Sparse VD をRNNに適合し,単語に重みをかけ, 語彙をスパース化させた. ・Sparse VDが大幅な品質の低下をなしに,大きなスパース性を もたらすことを示した. ・語彙のスパース化では,分類タスクでは圧縮率を高めますが,
言語モデルのタスクでは役に立たないことがわかった. 4
2. Related Work 5 ・先行研究では各ニューロンに対応するグループごとにLSTMの 重みを取り除くことを提案 ・ベイジアンNNでは重みはランダム変数として表され, 事前分布として表され,トレーニングで事後分布に変換される. ・ベイジアンスパース化はプルーニング手法と比較して, ハイパーパラメータの数が少なく,スパース性が高い.
・RNNの特徴を考慮してSparse VDを適応させる.
3.1 Notations 6 RNNについて
3.2 Sparse variational dropout for RNNs 7
3.2 Sparse variational dropout for RNNs 8
3.2 Sparse variational dropout for RNNs 9 reparametrization trick(積分を計算可能に) 先行研究では,local
reparametrization trickを用いているが, RNNでは時系列データを用いるため,厳密には使えない .
3.2 Sparse variational dropout for RNNs 10 reparametrization trick(積分を計算可能に) どのタイミングでサンプリングするかが問題になる.
先行研究では,local reparametrization trickを用いているが, RNNでは時系列データを用いるため,厳密には使えない .
3.2 Sparse variational dropout for RNNs 11 ・トレーニングの手順(ミニバッチ) (1)全ての重みをサンプリングして,通常通りRNNに適用 (2)Eq.(1)の勾配をθ,logσ,Bで計算.
・Eq.(2)より, θが極端に小さいものと,分散が大きいもの は0に近づき,スパース化される.
3.3 Multiplicative weights for vocabulary sparsification 12 ・ベイジアンスパース化の利点は,グループ(層)ごとの スパース化に拡張できる. ・入力のone-hot
ベクトルに確率的重み ∈ をかける ・ はミニバッチごとに重み同様に因子分解された正規分布で近似 ・トレーニング後, の要素が低いものをθとσの比率をもとに 削除し,その語彙に対応する単語を使用せず,重み行列から 該当する行を削除.
4 Experiments 13 ・テキスト分類のタスク ・IMDb:2値分類 ・AGNews:4クラス分類 頻度の高い20000語に両方のデータセットを揃える. ・言語モデリングのタスク ・Penn Treebankコーパス(Marcus
et al、1993) 文字レベル,単語レベル
4.1 Text Classification 14 ・品質を大幅に落とすことなく,圧縮率を高める ・分類には重要な単語のみを読めば良いことがわかる.
4.1 Text Classification 15 ・2値分類に重要そうな単語が残り,分類出来ている.
4.2 Language Modeling 16 ・文字は語彙数が少なく,すべて重要でありほとんど減らない ・単語においても,語彙数はスパース化しないほうが精度が高い.
5. Conclusions 17 ・Sparse VDをRNNに適用し,重みのθとσの比が一定以下の ものを重みを削除することで,品質を落とさずスパース化した ・分類タスクでは,かなり圧縮できたが,言語モデルのタスク では単語のほとんどが重要であり,語彙のスパース化はタスク を困難に品質の低下につながることがわかった.