$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Automated Concatenation of Embeddings for...
Search
Kaito Sugimoto
September 06, 2021
Research
0
290
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
September 06, 2021
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
140
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
310
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
280
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
530
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
300
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
170
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
480
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
1.1k
【論文紹介】Assessing Phrasal Representation and Composition in Transformers
hellorusk
0
93
Other Decks in Research
See All in Research
財務諸表監査のための逐次検定
masakat0
0
210
長期・短期メモリを活用したエージェントの個別最適化
isidaitc
0
330
Combining Deep Learning and Street View Imagery to Map Smallholder Crop Types
satai
3
270
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
110
AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data
satai
3
530
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
270
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
120
HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery
satai
3
310
説明可能な機械学習と数理最適化
kelicht
2
700
Vision and LanguageからのEmbodied AIとAI for Science
yushiku
PRO
1
600
MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation
satai
4
490
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1k
Featured
See All Featured
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
1
100
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.7k
Docker and Python
trallard
47
3.7k
It's Worth the Effort
3n
187
29k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
710
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.3k
Faster Mobile Websites
deanohume
310
31k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
3k
Making the Leap to Tech Lead
cromwellryan
135
9.7k
Transcript
Automated Concatenation of Embeddings for Structured Prediction Wang et al.,
ACL-IJCNLP 2021 Kaito Sugimoto Aizawa Lab. M1 2021/09/06 1 / 22
どんな論文? • ACL-IJCNLP 2021 (long paper) • 脚注によると著者が Alibaba の
R&D 部門にインターンした際に 行われた研究らしい 2 / 22
どんな論文? • Structured Prediction タスク(入力文のラベルや構造を予測するタ スク)をより上手く解く研究 • Neural Architecture Search
(NAS) のアイデアを活用し, 最適な Embedding の組み合わせ方を強化学習として学習する • NER や Dependency Parsing などの 6 つのタスクで SOTA 3 / 22
背景 • NER タスクなどにおいて, BERT の Embedding を単独で用いるよ りも他のモデルの Embedding
と連結して使う方が精度が良くな ることが知られていた 1 1Strakova et al., Neural Architectures for Nested NER through Linearization (ACL 2019) 4 / 22
背景 • 沢山種類がある言語モデルの Embedding から最も良い組み合わ せを考えることで性能を上げられないだろうか? • しかし, L 種類の
Embedding があった場合に, ありうる Embedding の連結の仕方は 2L − 1 通りあり, 全探索するのは困難 • タスクごとに効果的な Embedding の組み合わせが異なる可能性 も十分考えられる 5 / 22
背景 • そこで本研究では Neural Architecture Search (NAS) の考え方を取 り入れる •
NAS においては通常, タスクごとにアーキテクチャ自体を探索す る. NLP でもこれまでタスクに応じた RNN や Transformer のより 良いアーキテクチャ探索の応用例がある • 今回は, モデルのアーキテクチャは探索しない(ラベル予測では BiLSTM-CRF で, 構造予測では BiLSTM-Biaffine で統一). その代わ り, モデルの入力である Embedding の組み合わせ方を探索する. 6 / 22
提案手法のコンセプト • モデルのアーキテクチャではなく, モデルに入力する Embedding の組み合わせ方を探索する • アーキテクチャ自体を探索するよりも GPU 時間の少ない効率的
な方法だと主張している 7 / 22
手法 L を候補の Embedding の総数とする. a = ( a1 a2
... aL ) をどの Embedding を使うか・使わないかの値とす る(強化学習における「行動」 ) 各 al は以下の 𝜽 = ( 𝜃1 𝜃2 ... 𝜃l ) をパラメータとする分布(強化学習 における「方策(Policy)関数」 )に従ってサンプリングされる PCtrl l (al ; 𝜃l ) = { 𝜎(𝜃l ) 1 − 𝜎(𝜃l ) 流れとしては, 前のステップで計算された 𝜽 をもとに a をサンプルし, モデルを訓練して accuracy を計算. その accuracy の結果をもとに 𝜽 を更新する. この繰り返し. 8 / 22
手法 accuracy の計算 前のステップで計算された 𝜽 をもとに a をサンプルし, どの Embedding
を使うかを決める(1 ステップ目は全部使う ∀l al = 1). 以下の式のように, 使う Embedding 以外は 0 埋めされたベクトルが入 力になる. これを入力としてモデル(BiLSTM-CRF または BiLSTM-Biafiine)を訓 練し, evaluation データの accuracy を計算する. モデル自体は全ステップで同じものを使い続ける. 9 / 22
手法 𝜽 の更新 モデルの Accuracy を報酬としたとき, Vanilla Policy Gradient という強
化学習の手法 2 により, 𝜽 は前のステップから以下の分だけ更新すれ ばよいと求まる(初期状態は 𝜽 = 0). (b は, この更新値の分散を小さくするための項で, 具体的にはその時 点までの accuracy の最高値を使えばよいとされる) 2『深層強化学習アルゴリズムまとめ』 https://qiita.com/shionhonda/items/ec05aade07b5bea78081 がわかりやすい 10 / 22
手法 著者らはさらに, どの Embedding がより accuracy の向上に寄与した のかを報酬関数に明示した方がよいのではないか? と考え, 先程の式
を以下のように修正(実際に ablation study した際に効果的だった). 11 / 22
実験 以下の 6 種類のタスクを行う • NER • POS Tagging(品詞タグ付け) •
Chunking("South Africa" のようなカタマリの抽出) • Aspect Extraction(品物のレビューなど, 意見や感情を含む文から それに関連する用語を抽出するタスク) • Syntactic Dependency Parsing • Semantic Dependency Parsing 12 / 22
実験 1. ベースラインとの比較 提案手法の探索がうまくいっているかを確かめるために, • 単純に全部の Embeddings を使った場合 • Random
Search した場合(毎回ランダムに使う Embedding の組 み合わせを試す場合) と比較 Embedding の候補としては ELMo, Flair, BERT, Glove, fastText, Multilingual-BERT など 11 種類 (今回は fine-tuning は行わずに Embedding を生成する) 13 / 22
実験 (RANDOM も ALL を上回ることが多い) 14 / 22
実験 ランダムに組み合わせを試すよりも効率的 15 / 22
実験 2. SOTA との比較 実験 1. と異なり, モデルをタスクごとに fine-tuning してから
Embedding を作成し, その組み合わせ方を提案手法で学習する Embedding の候補としてさらに XLNet と RoBERTa を追加. 16 / 22
実験 17 / 22
実験 18 / 22
実験 Embedding Weighting, Ensemble との比較 複数の Embedding の組み合わせ方は他にも考えられる • Embedding
を選ぶか選ばないかを 0/1 で決めるのではなく, 連続 値の weight として考える All + weight 手法(つまり, Policy 関数で ある Sigmoid 関数の値をそのまま渡す) • それぞれの Embedding による予測結果の多数決で決める Ensemble 手法(この場合強化学習そのものが不要) これらに対して提案手法は優っているのか? 19 / 22
実験 どれも僅差だが POS, AE で若干差が開いている Random も強いベースライン 20 / 22
実験 結局, どのモデルの Embedding が役に立つのか? はっきりとした結論は出せなかった. タスクがラベル予測か構造予測か, あるいは文法的なタスクか意味的 なタスクか, で若干の傾向の違いはありそう.
21 / 22
感想 • NAS の考え方を Embedding の組み合わせ方に応用するだけで, こ こまで多くのタスクで SOTA を出せるのは面白い
• 入力文の構造予測以外のタスクでも使えそうかどうかは気になる • 一方で, SOTA レベルのパフォーマンスを出すためには前提とし て沢山の fine-tuning モデルが必要であり, 前準備が大変である. そ こも含めて Huggingface のライブラリに組み込まれると便利そう 22 / 22