Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介: Self-Supervised_Neural_Machine_Translation
Search
Yumeto Inaoka
December 13, 2019
Research
0
140
文献紹介: Self-Supervised_Neural_Machine_Translation
2019/12/13の文献紹介で発表
Yumeto Inaoka
December 13, 2019
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
160
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
210
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
150
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
130
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
250
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
310
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
210
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
210
文献紹介: Similarity-Based Reconstruction Loss for Meaning Representation
yumeto
1
200
Other Decks in Research
See All in Research
アプリケーションから知るモデルマージ
maguro27
0
300
博士学位論文予備審査 / Scaling Telemetry Workloads in Cloud Applications: Techniques for Instrumentation, Storage, and Mining
yuukit
1
1.8k
CUNY DHI_Lightning Talks_2024
digitalfellow
0
660
言語モデルLUKEを経済の知識に特化させたモデル「UBKE-LUKE」について
petter0201
0
300
PhD Defence: Considering Temporal and Contextual Information for Lexical Semantic Change Detection
a1da4
0
140
メタヒューリスティクスに基づく汎用線形整数計画ソルバーの開発
snowberryfield
3
820
ナレッジプロデューサーとしてのミドルマネージャー支援 - MIMIGURI「知識創造室」の事例の考察 -
chiemitaki
0
250
Batch Processing Algorithm for Elliptic Curve Operations and Its AVX-512 Implementation
herumi
0
130
Segment Any Change
satai
3
270
20250226 NLP colloquium: "SoftMatcha: 10億単語規模コーパス検索のための柔らかくも高速なパターンマッチャー"
de9uch1
0
260
NeurIPS 2024 参加報告 & 論文紹介 (SACPO, Ctrl-G)
reisato12345
0
400
Weekly AI Agents News! 11月号 プロダクト/ニュースのアーカイブ
masatoto
0
320
Featured
See All Featured
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
2.9k
Git: the NoSQL Database
bkeepers
PRO
429
65k
The Pragmatic Product Professional
lauravandoore
33
6.5k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
16
1.1k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
25k
GitHub's CSS Performance
jonrohan
1030
460k
Code Reviewing Like a Champion
maltzj
522
39k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Fireside Chat
paigeccino
37
3.3k
Facilitating Awesome Meetings
lara
53
6.3k
Optimising Largest Contentful Paint
csswizardry
35
3.2k
How to train your dragon (web standard)
notwaldorf
91
5.9k
Transcript
Self-Supervised Neural Machine Translation 文献紹介 2019/12/13 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
Literature 2 Title: Self-Supervised Neural Machine Translation Authors: Dana Ruiter,
Cristina España-Bonet, Josef van Genabith Volume: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics Pages: 1828–1834 Year: 2019
Abstract • NMTの学習で得られる内部表現を用いて訓練データ を選択する自己教師あり学習を提案 • 表現の学習とデータ選択はお互いを強化するように 並列データなしで行なわれる • 言語に依存しない &
追加のハイパーパラメータなし 3
Low-resource NMT • NMTは高品質の並列コーパスに依存している → 多数の低資源言語では存在しない • NMTであらゆる言語をカバーするためには 教師なし手法の開発、並列データの抽出が必要 4
Their approach • NMTモデルは有用な文ペアを判断するのに充分な ほど学習される • MTの学習とCross-lingualな近い文を見つける補助 タスクで相互に自己教師あり学習を繰り返させる 5
Joint Model Architecture • EncoderとDecoderのどちらも両方の言語情報を持つ 双方向NMTを考える ← 入力文に目的言語のタグを付けることで実現 • 以下の2つを文のベクトル表現とする
- Ce: 単語埋め込みの合計 - Ch: Encoderの隠れ状態の合計 6
Score input sentence pairs • 2つの文ベクトルを使ってペアをスコアリング • コサイン類似度による方法ではしきい値を決める 必要がある →
Margin-basedな手法を用いる 7
Selection process • 以下の4つの戦略を検討する • Ce, Chのいずれか、または両方利用 1. Threshold dependent
2. High precision, medium recall (System P) 3. Medium precision, high recall (System R) 4. Low precision, high recall 8
Threshold dependent • 各原文で一番スコアの高い目的言語文を見つける • Ce, Chのいずれかを使用 • 両言語方向で一致したペアのみを用いる •
誤検知を除外するためのしきい値は経験的に決定 9
High precision, medium recall • Threshold dependentとほとんど同じ • Ch, Ceの両方の表現を用いる
• 両言語方向かつ両表現で一致したペアのみを用いる • 補完的なCh, Ceによってしきい値は不要となる 10
Medium precision, high recall • High precision, medium recallは制限が強い •
最高スコアの目的言語文だけを用いるのではなく top-n (本実験ではn=2) を用いるようにする • 両方の表現を用いるのは同じだが、上の拡張は Chにおいてのみ使用する 11
Low precision, high recall • Medium precision, high recall における
source-targetとCh-Ce を対称にした手法 12
Experimental Setup (Data) • 初期の単語埋め込みの計算: Wikipedia の En/Fr (92M/27M sents.)を使用
• 学習コーパス: 言語間でリンクできる記事のみを使用 (12M/8M) 13
Experimental Setup (Model) • OpenNMT toolkitを使用 • LSTM: 1-layer Bi-LSTM
with Attention, SGD • Transformer: 6-layer, 8-head, Adam 14
Experimental Setup (Model) • simP: CeとChを使用, high precision, sim関数を使用 •
margP: simPと同じ, margin関数を使用 • margR: margPと同じ, high recall • margH: margPと同じ, Chのみ使用, しきい値は1.0 • margE: margPと同じ, Ceのみ使用, しきい値は1.2 15
Results (Epochs - #Pairs) • epochが進むにつれて使われる ペアが増える • 学習の前半では数字や固有表現 を含む文が選ばれる
• 学習が進むにつれて同じ意味の 複雑な文が選ばれる 16
Results (Epochs – BLEU) • Epochが進むにつれて TransformerのBLEUが向上 → この傾向は一般的 17
Results • BLEUによる各システムの比較 • sim()とmargin()の差が明確 • 用いる表現による差は小さい • margEやmergHは両方使うより 2~10ポイント低い
• UNMTより少ないコーパスで 同程度の結果が得られている → monolingual dataかcomparable corpusかの差 18
Conclusions • 翻訳の学習とデータの選択を同時に行なう手法の提案 → 互いに増分的に助け合う自己教師あり形式 • 使用する表現、選択に用いる関数に注目 → ハイパーパラメータ設定を回避 •
marginによるスコアと文表現の組み合わせが重要 19