Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介: Learning To Split and Rephrase From Wikip...
Search
Yumeto Inaoka
November 21, 2018
Research
220
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
文献紹介: Learning To Split and Rephrase From Wikipedia Edit History
2018/11/21の文献紹介で発表
Yumeto Inaoka
November 21, 2018
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
220
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
280
文献紹介: Self-Supervised_Neural_Machine_Translation
yumeto
0
190
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
210
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
210
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
320
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
420
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
250
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
280
Other Decks in Research
See All in Research
第66回コンピュータビジョン勉強会@関東 Epona: Autoregressive Diffusion World Model for Autonomous Driving
kentosasaki
0
630
機械学習で作った ポケモン対戦bot で 遊ぼう!
fufufukakaka
0
270
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
1.1k
さくらインターネット研究所テックトーク2026春、研究開発Gr.25年度成果26年度方針
kikuzo
0
150
老舗ものづくり企業でリサーチが変革を起こすまで - 三菱重工DXの実践
skydats
0
180
人間中心の意思決定支援AI
yukinobaba
PRO
5
2.6k
AGI4OPT:自然言語から数理最適化を導くエ ージェントスキル Translating Human Intent into Mathematical Optimization
mickey_kubo
0
140
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
180
The mathematics of transformers
gpeyre
0
320
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
290
「なんとなく」の顧客理解から脱却する ──顧客の解像度を武器にするインサイトマネジメント
tajima_kaho
10
7.6k
AIで最適化を解けるか?
mickey_kubo
0
110
Featured
See All Featured
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
200
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
140
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
530
My Coaching Mixtape
mlcsv
0
140
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
450
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
55k
Testing 201, or: Great Expectations
jmmastey
46
8.2k
Navigating Team Friction
lara
192
16k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
240
New Earth Scene 8
popppiees
3
2.3k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
180
Technical Leadership for Architectural Decision Making
baasie
3
400
Transcript
Learning To Split and Rephrase From Wikipedia Edit History 文献紹介
( 2018/11/21 ) 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
Literature • Learning To Split and Rephrase From Wikipedia Edit
History • Jan A. Botha, Manaal Faruqui, John Alex, Jason Baldridge, Dipanjan Das (Google AI Language) • Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2
Split and Rephrase 複雑な文章を複数の平易な文章に書き換える操作 3 removing adding
Related Works Split and Rephrase [Narayan et al. 2017] •
新しい平易化タスク“Split and Rephrase”を提案 • ベンチマーク WebSplit を作成 • 既存のモデルを適用してタスクの難易度を調査 4
Related Works Split and Rephrase: Better Evaluation and a Stronger
Baseline [Aharoni, Goldberg. 2018] • WebSplit内のデータの重複を削減 • Copy mechanismを用いても性能が不十分 5
Contributions • Wikipediaの編集履歴 (Wikipedia Edits)から split-and-rephraseの書き換えを抽出する手法 • 英語のWikiSplitデータセットの公開 • WebSplitと比較してBLEUが倍増
(30.5 → 62.4) 6
WebSplit • 文の分割と書き換えを評価する基準を提供 • サイズが小さく反復性がある → 適用範囲が制限される • モデル評価のベンチマークには使えるが 訓練には使えない
→ WikiSplitコーパスを作成 7
Mining Wikipedia Edits • 記事からマークアップを除去 • splitta [Gillick. 2009] で文を分割
• 時間的に隣接するスナップショットを比較し 文分割を含む編集を特定 • 分割候補から高品質の分割のみを抽出 8
Mining Wikipedia Edits • Full sentence: C Candidate split: S =
(S 1 , S 2 ) • CとS 1 の接頭辞、CとS 2 の接尾辞が同じtri-gram • S 1 とS 2 の接尾辞が異なるtri-gram • BLEU(C, S 1 )とBLEU(C, S 2 )がδより小さい 9
Mining Wikipedia Edits 例: C 0 = I am a
cat who has no name as yet. S 1 = I am a cat. S 2 = I have no name as yet. BLEU(C, S 1 ) > δ < BLEU(C, S 2 ) 10 removing adding
Corpus Statistics and Quality コーパスサイズと 品質はトレードオフ ランダムな100文を 使ってδを選定 δ=0.2が最適と判断 11
Corpus Statistics and Quality • Correct/Unsupp./Miss. = 168/35/4 (δ =
0.2) → 68%は完璧で、32%はノイズを含む • このデータを訓練データとして使用 • 評価においてノイズやバイアスを含む不完全な 信号であることを受け入れる 12
Comparison to WebSplit 13
Comparison to WebSplit • WikiSplitの方がより多様でスパース → より難しいタスクとなる • WikiSplitは一様に1度の分割のみを行う →
より簡単なタスクとなる 14
Comparison to WebSplit • WikiSplitはヒューリスティックな手法による 抽出を用いて構築されている • WebSplitは複数のReferenceを提供 → WebSplitの方が評価に適したデータセット
15
Experiments • WebSplitのみ、WikiSplitのみ、両方で実験 • Text-to-textとみなし、BLEU, S-BLEUで評価 • モデルは [Aharoni, Goldberg.
2018] で最高の 結果を出した“Copy512”を使用 16
Results • WebSplitはドメイン外で 非常に低い • WikiSplitはドメイン外で も高い • 両方を使用するとさらに 向上
17 SOURCE : 入力をそのまま出力 SPLITHALF : 半分に分割し、ピリオドを追加
Results 18
Results BOTHにおいて学習にない3文の出力ができている 19
Results BOTHにおいて正確な出力が95%であることを 人手評価によって確認 20
Conclusion and Outlook • ノイズを含む大規模で多様なデータが split-and-rephraseにおいて好影響 • 今後、他のデータ源の発見により改善が できることを示唆 •
理想的には、自然な文による評価データや タスクに適した評価指標が必要 21