Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介: Self-Supervised_Neural_Machine_Translation
Search
Yumeto Inaoka
December 13, 2019
Research
0
140
文献紹介: Self-Supervised_Neural_Machine_Translation
2019/12/13の文献紹介で発表
Yumeto Inaoka
December 13, 2019
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
160
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
210
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
150
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
130
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
250
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
310
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
210
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
210
文献紹介: Similarity-Based Reconstruction Loss for Meaning Representation
yumeto
1
200
Other Decks in Research
See All in Research
公立高校入試等に対する受入保留アルゴリズム(DA)導入の提言
shunyanoda
0
310
言語モデルLUKEを経済の知識に特化させたモデル「UBKE-LUKE」について
petter0201
0
300
(NULLCON Goa 2025)Windows Keylogger Detection: Targeting Past and Present Keylogging Techniques
asuna_jp
1
310
한국어 오픈소스 거대 언어 모델의 가능성: 새로운 시대의 언어 이해와 생성
inureyes
PRO
0
260
クラウドのテレメトリーシステム研究動向2025年
yuukit
3
780
チュートリアル:Mamba, Vision Mamba (Vim)
hf149
6
3.2k
Poster: Feasibility of Runtime-Neutral Wasm Instrumentation for Edge-Cloud Workload Handover
chikuwait
0
430
Weekly AI Agents News! 12月号 プロダクト/ニュースのアーカイブ
masatoto
0
360
Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery
satai
3
120
メタヒューリスティクスに基づく汎用線形整数計画ソルバーの開発
snowberryfield
3
820
実行環境に中立なWebAssemblyライブマイグレーション機構/techtalk-2025spring
chikuwait
0
120
3D Gaussian Splattingによる高効率な新規視点合成技術とその応用
muskie82
0
230
Featured
See All Featured
A designer walks into a library…
pauljervisheath
205
24k
Fireside Chat
paigeccino
37
3.3k
Reflections from 52 weeks, 52 projects
jeffersonlam
349
20k
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.4k
KATA
mclloyd
29
14k
Raft: Consensus for Rubyists
vanstee
137
6.8k
Optimising Largest Contentful Paint
csswizardry
35
3.2k
Typedesign – Prime Four
hannesfritz
41
2.6k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Thoughts on Productivity
jonyablonski
69
4.5k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.5k
Facilitating Awesome Meetings
lara
53
6.3k
Transcript
Self-Supervised Neural Machine Translation 文献紹介 2019/12/13 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
Literature 2 Title: Self-Supervised Neural Machine Translation Authors: Dana Ruiter,
Cristina España-Bonet, Josef van Genabith Volume: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics Pages: 1828–1834 Year: 2019
Abstract • NMTの学習で得られる内部表現を用いて訓練データ を選択する自己教師あり学習を提案 • 表現の学習とデータ選択はお互いを強化するように 並列データなしで行なわれる • 言語に依存しない &
追加のハイパーパラメータなし 3
Low-resource NMT • NMTは高品質の並列コーパスに依存している → 多数の低資源言語では存在しない • NMTであらゆる言語をカバーするためには 教師なし手法の開発、並列データの抽出が必要 4
Their approach • NMTモデルは有用な文ペアを判断するのに充分な ほど学習される • MTの学習とCross-lingualな近い文を見つける補助 タスクで相互に自己教師あり学習を繰り返させる 5
Joint Model Architecture • EncoderとDecoderのどちらも両方の言語情報を持つ 双方向NMTを考える ← 入力文に目的言語のタグを付けることで実現 • 以下の2つを文のベクトル表現とする
- Ce: 単語埋め込みの合計 - Ch: Encoderの隠れ状態の合計 6
Score input sentence pairs • 2つの文ベクトルを使ってペアをスコアリング • コサイン類似度による方法ではしきい値を決める 必要がある →
Margin-basedな手法を用いる 7
Selection process • 以下の4つの戦略を検討する • Ce, Chのいずれか、または両方利用 1. Threshold dependent
2. High precision, medium recall (System P) 3. Medium precision, high recall (System R) 4. Low precision, high recall 8
Threshold dependent • 各原文で一番スコアの高い目的言語文を見つける • Ce, Chのいずれかを使用 • 両言語方向で一致したペアのみを用いる •
誤検知を除外するためのしきい値は経験的に決定 9
High precision, medium recall • Threshold dependentとほとんど同じ • Ch, Ceの両方の表現を用いる
• 両言語方向かつ両表現で一致したペアのみを用いる • 補完的なCh, Ceによってしきい値は不要となる 10
Medium precision, high recall • High precision, medium recallは制限が強い •
最高スコアの目的言語文だけを用いるのではなく top-n (本実験ではn=2) を用いるようにする • 両方の表現を用いるのは同じだが、上の拡張は Chにおいてのみ使用する 11
Low precision, high recall • Medium precision, high recall における
source-targetとCh-Ce を対称にした手法 12
Experimental Setup (Data) • 初期の単語埋め込みの計算: Wikipedia の En/Fr (92M/27M sents.)を使用
• 学習コーパス: 言語間でリンクできる記事のみを使用 (12M/8M) 13
Experimental Setup (Model) • OpenNMT toolkitを使用 • LSTM: 1-layer Bi-LSTM
with Attention, SGD • Transformer: 6-layer, 8-head, Adam 14
Experimental Setup (Model) • simP: CeとChを使用, high precision, sim関数を使用 •
margP: simPと同じ, margin関数を使用 • margR: margPと同じ, high recall • margH: margPと同じ, Chのみ使用, しきい値は1.0 • margE: margPと同じ, Ceのみ使用, しきい値は1.2 15
Results (Epochs - #Pairs) • epochが進むにつれて使われる ペアが増える • 学習の前半では数字や固有表現 を含む文が選ばれる
• 学習が進むにつれて同じ意味の 複雑な文が選ばれる 16
Results (Epochs – BLEU) • Epochが進むにつれて TransformerのBLEUが向上 → この傾向は一般的 17
Results • BLEUによる各システムの比較 • sim()とmargin()の差が明確 • 用いる表現による差は小さい • margEやmergHは両方使うより 2~10ポイント低い
• UNMTより少ないコーパスで 同程度の結果が得られている → monolingual dataかcomparable corpusかの差 18
Conclusions • 翻訳の学習とデータの選択を同時に行なう手法の提案 → 互いに増分的に助け合う自己教師あり形式 • 使用する表現、選択に用いる関数に注目 → ハイパーパラメータ設定を回避 •
marginによるスコアと文表現の組み合わせが重要 19