Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Modeling Mathematical Notation Semantics ...
Search
Kaito Sugimoto
April 25, 2022
Research
0
230
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
April 25, 2022
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
110
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
220
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
250
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
450
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
150
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
420
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
910
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
250
【論文紹介】Assessing Phrasal Representation and Composition in Transformers
hellorusk
0
80
Other Decks in Research
See All in Research
20241226_くまもと公共交通新時代シンポジウム
trafficbrain
0
480
インドネシアのQA事情を紹介するの
yujijs
0
170
Dynamic World, Near real-time global 10 m land use land cover mapping
satai
3
100
SI-D案内資料_京都文教大学
ryojitakeuchi1116
0
200
Collaborative Development of Foundation Models at Japanese Academia
odashi
2
470
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment
satai
3
180
CoRL2024サーベイ
rpc
2
1.8k
コーパスを丸呑みしたモデルから言語の何がわかるか
eumesy
PRO
11
3.3k
言語モデルの内部機序:解析と解釈
eumesy
PRO
32
13k
3D Gaussian Splattingによる高効率な新規視点合成技術とその応用
muskie82
0
210
さくらインターネット研究所 アップデート2025年
matsumoto_r
PRO
0
430
言語モデルによるAI創薬の進展 / Advancements in AI-Driven Drug Discovery Using Language Models
tsurubee
1
260
Featured
See All Featured
Become a Pro
speakerdeck
PRO
27
5.2k
Site-Speed That Sticks
csswizardry
4
450
Facilitating Awesome Meetings
lara
53
6.3k
The Cult of Friendly URLs
andyhume
78
6.3k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
A Modern Web Designer's Workflow
chriscoyier
693
190k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Typedesign – Prime Four
hannesfritz
41
2.6k
Designing for Performance
lara
606
69k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
12k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.6k
Transcript
Modeling Mathematical Notation Semantics in Academic Papers Jo et al.,
EMNLP 2021 Findings Kaito Sugimoto Aizawa Lab. M2 2022/04/19 1 / 20
紹介する論文 EMNLP 2021 Findings 2 / 20
概要 • 学術的な文献に出てくる数学記号の意味を, 今の NLP モデルがど の程度うまく学習できるかを調べる研究 • 特に「記号の周囲のテキストから記号を予測する」タスクに フォーカスし,
モデルのパフォーマンスを調べる • さらに, 数学記号の予測問題に特化したモデル(具体的には, 記号 穴埋めで fine-tuning したモデル)を提案 • 提案モデルは既存モデルに比べて, 数学記号の予測で良い性能を 発揮したが, 未知のトークンの予測が難しい, 数学記号の構造を 把握できていない, という問題点も明らかになった 3 / 20
背景 • 数学記号とその意味(を表すテキスト)は密接な関係にある • Wolska and Grigore (2010) 1 によれば,
7 割の記号が, その記号が導入され た段落と同じ段落で定義されているそうである • うまく訓練された言語モデルであれば, コンテキストから適切な記号を 選べるはず • 数学記号にまつわる問題を NLP 的アプローチで扱う研究も既に 多数ある • logic reasoning を解かせる 2, 数学の分野ごとに特有の等式を出力させる 3, 入力の数式に対してその定義を検知する 4 など 1Wolska and Grigore, Symbol Declarations in Mathematical Writing 2Rabe et al., Mathematical reasoning via self-supervised skip-tree training (ICLR 2020) 3Yasunaga and Lafferty, A joint topic and mathematical equation model for scientific texts (AAAI 2019) 4Kang et al., Document-level definition detection in scholarly documents: Existing models, error analyses, and future directions. (SDP 2020) 4 / 20
背景 著者らはなぜ「記号の周囲のテキストから記号を予測する」タスクに 注目したか → アプリケーション上重要だから 1 Notation auto-suggestions: たとえばディープラーニングでは学 習率を
𝛼 と表すことが多いように, 慣習的に同じ記号を用いる ケースが多くある. 記号提案システムは, そのような慣習をうま く学習し, 適切な記号を自動でサジェストしてくれるシステム 2 Notation consistency checks: 1 つのドキュメントで, ある箇所で は D が差(デルタ)を, 別の箇所ではドキュメントを表していた りすると問題である. 記号一貫性チェックシステムは, そのよう な異なる用法での記号の使用を警告してくれるシステム 5 / 20
タスク • 今回のタスクでは, TeX ファイル中の $ で囲まれた部分のトーク ンを予測することにする • これにより,
数学記号における x なのか, xi なのか, x なのか, と いった違いも情報として扱うことができる 6 / 20
タスク 以下のように設定を単純化する • Notation auto-suggestions 予測すべきトークンの左側にある文 章のみからトークンをどの程度予測できるか?(執筆しながら適 切な記号を選ぶイメージ) • Notation
consistency checks 予測すべきトークンの左側にある 文章と右側にある文章の双方からトークンをどの程度予測でき るか?(既に書いた内容をチェックするイメージ) 7 / 20
タスク auto-suggestions task の例 8 / 20
提案モデル MATHPREDICTOR: BERT を数式穴埋めで fine-tune したモデル 9 / 20
提案モデル • 語彙の追加: 既存の BERT の tokenizer では \overline が
\と over と ##line に分割されてしまうので, LaTeX のマクロを 2,700 トーク ン程度追加 10 / 20
提案モデル • Permutation over notation tokens: 例えば \overline, h という連続
するトークンが正解データの際に, いきなりモデルに全て予測さ せるのではなく, \overline だけマスクしたものや h だけマスクし たものを確率的に入れる. これにより, \overline の後には必ずアルファベット等が来る, と いったトークン間の関係性の学習が期待できる • Notation length constraint: 予測すべきトークン列があまりにも 長いと予測が難しいため, マスクする最大の長さを 10 以下に制限 する 11 / 20
提案モデル • Larger context modeling: BERT のトークン長制限は 512 なので, 論文全体を入力に入れることはできない.
LongFormer のような 改良モデルが提案されているが, 推論時間が遅くなってしまうた め, リアルタイムの執筆支援に適さないと判断. そこで, 基本的には, 予測すべきトークンの周囲数文しか入力と して使わない. それよりも遠い位置にある文の情報を使うモデルとして, まとめ て(CLS から得られる)文ベクトルの平均として入力させるモデ ルを別に作成( FullContext モデル). ただしこのモデルは後で評 価で示すように, うまくいかなかった. 12 / 20
評価結果: 全体 (FT): fine-tuning 13 / 20
評価結果: Context の長さによる差 14 / 20
評価結果: データセットの難易度による差 周囲のテキストに含まれていない未知の数学記号を予測する Challenge set では全然正解できていない → 「ディープラーニングでは学習率を 𝛼 と表すことが多い」という
ような慣習をうまく学習するには課題がありそう 15 / 20
評価結果: 数学記号の種類による差 16 / 20
評価結果: 数学記号の種類による差 17 / 20
評価結果: 評価方法の差 • 今までの評価方法はトークンレベルの予測結果の評価だったが, 数式単位, 文単位で評価するとどうなるかを調べた. • 結果として, original BERT
を除く全てのモデルでスコアが下 がった. • original BERT はより構造的な一貫性を把握する能力があり, それ が追加学習によって損なわれたのかもしれない → 数式の木構造 を取り入れた追加学習を行う方がよさそう 18 / 20
予測例 19 / 20
感想・まとめ • 数字だけでなく, 演算子や TeX のマクロを含めた数式全体で考え た場合の現状の課題がわかって面白かった • 訓練データの量の問題かもしれない(論文によると, 提案モデル
の追加学習にはランダムに 1,000 本の論文データしか使っていな い)ので, 大量の TeX ファイルでスクラッチ学習すると多少は改 善しそう • どの記号がどのような意味で使われることが多いか? みたいな 慣習をテキストから上手くまとめられるとよさそう 20 / 20