Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介: Analyzing the Limitations of Cross-lingua...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yumeto Inaoka
June 25, 2019
Research
0
260
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
2019/06/25の文献紹介で発表
Yumeto Inaoka
June 25, 2019
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
210
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
270
文献紹介: Self-Supervised_Neural_Machine_Translation
yumeto
0
180
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
190
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
180
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
310
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
380
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
250
文献紹介: Similarity-Based Reconstruction Loss for Meaning Representation
yumeto
1
230
Other Decks in Research
See All in Research
都市交通マスタープランとその後への期待@熊本商工会議所・熊本経済同友会
trafficbrain
0
150
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
380
An Open and Reproducible Deep Research Agent for Long-Form Question Answering
ikuyamada
0
330
財務諸表監査のための逐次検定
masakat0
1
270
教師あり学習と強化学習で作る 最強の数学特化LLM
analokmaus
2
930
AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE
yuukit
2
1.2k
LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection
satai
3
540
存立危機事態の再検討
jimboken
0
250
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
15
22k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
140
生成AI による論文執筆サポート・ワークショップ 論文執筆・推敲編 / Generative AI-Assisted Paper Writing Support Workshop: Drafting and Revision Edition
ks91
PRO
0
140
20年前に50代だった人たちの今
hysmrk
0
160
Featured
See All Featured
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
620
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
340
Design in an AI World
tapps
0
160
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
Practical Orchestrator
shlominoach
191
11k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.1k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
1.9k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
750
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
140
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Into the Great Unknown - MozCon
thekraken
40
2.3k
Transcript
Analyzing the Limitations of Cross-lingual Word Embedding Mappings 文献紹介 (2019/06/25)
長岡技術科学大学 自然言語処理研究室 稲岡 夢人
Literature Title: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
Author: Aitor Ormazabal, Mikel Artetxe, Gorka Labaka, Aitor Soroa, Eneko Agirre Conf.: ACL 2019 Year: 2019 URL: https://arxiv.org/abs/1906.05407 2
Abstract • Cross-lingual Word Embeddingsの学習は、 単言語で学習したWord Embeddingsを線形変換 して共有空間にマッピングするのがほとんど → そもそも線形変換でマッピング出来るかは疑問
• 別々に学習する場合と一緒に学習する場合で比較 • 一緒に学習した方がより同型(Isomorphism)で ハブ(Hubness)に敏感でない結果となった 3
Cross-lingual Word Embeddings • 既存のCross-lingual Word Embeddings(CWE)は 大きく2つの学習方法に分けられる • Joint
methods: 並列コーパスで複数のWord Embeddingsを 同時に学習する • Mapping methods: 別々に学習して線形変換を介して共有空間に マッピングする手法 4
Limitation of mapping method • マッピングするためには空間が言語によらず 同じ構造を持っている必要がある → 仮定が正しくなければマッピングには制限がある •
異言語、異ドメインにおいて空間構造は一致せず マッピングを妨げることが知られている 5
Methods Mapping method: 1. 各言語で300次元のskip-gramを学習 2. VecMapで教師なしマッピングの自己学習を反復* Joint learning: 1.
文脈として原言語と目的言語の両方を与える BiVecを学習 * Artetxe et al. A robust self-learning method for fully unsupervised cross- lingual mappings of word embeddings. ACL 2018. 6
Isomorphism (同型) • 両言語の構造的類似性を測定 1. 各言語の高頻度語上位10,000語で最近傍 グラフを作成 2. それらのラプラシアン行列L 1
, L 2 を計算 3. L 1 , L 2 においてK 1 , K 2 個の固有値の合計が全体の 合計の90%になるような最小のK 1 , K 2 を求める 4. ∆ = σ =1 min 1,2 1 − 2 2 を求める 7
Hubness • ある単語が他のあらゆる単語と近くなる現象が Cross-lingual Word Embeddingでは問題となる • 原言語単語のN%の最近傍である目的言語単語の 最小パーセンテージH N
を求める(Nはパラメータ) • 例えばH 10% =0.3% の場合、目的言語単語の0.3% が原言語単語の10%の最近傍であることを示す 8
Nearest neighbor retrieval • Hubnessの計算では最近傍検索を行う • 最近傍検索ではコサイン類似度を用いるのが一般的 • コサイン類似度を用いた最近傍検索において、 yがxの最近傍であることはxがyの最近傍であること
を意味しない(非対称性) ← 画像特徴マッチングから言語理解までの様々な所 で問題視されている → Cross-domain Similarity Local Scaling(CSLS)を利用 9
Bilingual Lexicon Induction • 原言語の各単語を目的言語の最近傍単語にリンク させて対訳辞書を作成 • 上の辞書とGold-standardの辞書を比較 • Precision@1で精度を測定
11
Datasets (Word Embeddings) • 英語を目的言語として、それと比較的近い言語の ドイツ語、スペイン語、イタリア語を原言語とする • 膠着語であるフィンランド語も原言語に用いる • ParaCrawlコーパスから学習
• de/es/it/fi = 503M/492M/308M/55M (tokens in En.) 12
Datasets (Dictionary) • Eparl Europarlの単語アライメントから抽出(1,500件) • MUSE Facebookの内部翻訳ツールを用いて収集(1,500件) 13
Results 14
Results (isomorphism •Joint learningがより同型 (isomorphic)な結果 •Mappingと比較してより 構造的に類似した空間を 持つことを示す •訓練コーパスが小さく 離れたフィンランド語で
向上が大きい 15
Results (Hubness) •ドイツ語以外で良好な結果 → 言語の相違がマッピングに 深刻な影響を与える示唆 •CSLSは特にMappingで 非常に効果的 16
Results (Dictionary) •特にフィンランド語において Joint learningの効果が大きい •CSLSは特にMappingで 効果的 17
Discussion • 同じ条件下で対訳コーパスを訓練した場合に Joint learningはMappingよりも優れた表現を得る • Joint learningによって言語間の相違が軽減される • Joint
learningがMappingよりも優れているという 主張ではない • 結果はMapping methodの根本的な制限を示す 18
Conclusions • 並列コーパスによるCross-lingual Word Embeddings の学習を通じてJoint learningとMappingの特性の 違いを比較 • Joint
learningがより良い表現を得ることを確認 • 現行のMappingには強い制限がある • 単言語コーパスでの学習にJoint learningを用いる 新たな手法が求められる 19