Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-...
Search
Kaito Sugimoto
May 24, 2021
Research
0
220
【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models
研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
May 24, 2021
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
140
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
310
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
280
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
530
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
300
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
170
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
480
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
1.1k
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
290
Other Decks in Research
See All in Research
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues
satai
3
400
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
110
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
4
330
SNLP2025:Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
220
Vision and LanguageからのEmbodied AIとAI for Science
yushiku
PRO
1
600
音声感情認識技術の進展と展望
nagase
0
400
論文紹介:Not All Tokens Are What You Need for Pretraining
kosuken
1
220
離散凸解析に基づく予測付き離散最適化手法 (IBIS '25)
taihei_oki
PRO
1
620
Stealing LUKS Keys via TPM and UUID Spoofing in 10 Minutes - BSides 2025
anykeyshik
0
170
Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation
satai
3
400
Satellites Reveal Mobility: A Commuting Origin-destination Flow Generator for Global Cities
satai
3
190
AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data
satai
3
530
Featured
See All Featured
What's in a price? How to price your products and services
michaelherold
246
13k
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
A designer walks into a library…
pauljervisheath
210
24k
Embracing the Ebb and Flow
colly
88
4.9k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.2k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3k
Designing for Performance
lara
610
69k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Designing Experiences People Love
moore
143
24k
Mobile First: as difficult as doing things right
swwweet
225
10k
Site-Speed That Sticks
csswizardry
13
1k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Transcript
OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models Liu et al.
Kaito Sugimoto Aizawa Lab. M1 2021/05/24 1 / 16
どんな論文? • ドメイン知識を考慮した学術論文事前学習モデルを提案 • Open Academic Graph (OAG) を活用して, 論文のテキストだけで
なく Author, Field of Study, Venue, Affiliation などの Entity 情報を同 時に学習する • Entity 情報が重要になる各種タスクにおいて, SciBERT のスコア を上回る 2 / 16
Academic Graph とは • 論文, 著者, Venue (会議 or ジャーナル)
などの Entity と, authorship (論文-著者 間), paper-publish-in-venue (論文-Venue 間), co-authorship (著者-著者 間) などの Relation から構成されるグ ラフ 3 / 16
Academic Graph の例 • AMiner (KDD ’08) • Microsoft Academic
Graph (MAG) (WWW ’15) • Open Academic Graph (OAG) (KDD ’19) • AMiner を開発した Tsinghua University(精華大学) と MAG を開発した Microsoft の共同研究プロジェクト • https://www.microsoft.com/en-us/research/project/ open-academic-graph/ 4 / 16
OAG 5 / 16
OAG-BERT • 論文に関係する様々な Entity 情報も含めて学習を行う • 以下の 2 つのステップに分かれる •
First Stage: Pre-train the vanilla OAG-BERT. • Second Stage: Enrich OAG-BERT with entity knowledge. 6 / 16
First Stage: Pre-train the vanilla OAG-BERT vanilla version (Entity 情報を含めない,
SciBERT と同じテキストだけの 学習) の OAG-BERT を作成する AMiner に含まれる論文 PDF および PubMed XML の合計 500 万本の論 文テキストを学習に使う SciBERT との違いは? • SciBERT は Semantic Scholar から CS+BioMed 分野の計 114 万本 の論文で事前学習していた. • SciBERT は本文テキストを使うのに対し, OAG-BERT は本文のタ イトルと要旨の間に著者名も挿入する → この時点で著者の vocabularary が多い 7 / 16
Second Stage: Enrich OAG-BERT with entity knowledge 8 / 16
Second Stage: Enrich OAG-BERT with entity knowledge Entity-aware 2D-positional encoding
• Entity 間の区別と, Entity 内の語順の識別のために行う Span-aware entity masking • ERNIE や SpanBERT などの既存の Entity を考慮するモデルと同 様, いくつかの連続した token を MASK して予測させる • MASK する span の長さは幾何分布からサンプル (SpanBERT で効 果的だったから (? )) 9 / 16
Second Stage: Enrich OAG-BERT with entity knowledge 学習 • 少なくとも
3 本は論文を出している著者の論文からランダムに選 び, 1 億 2000 万本の論文を, Author, Fields of Study, Venue, Affiliation とともに学習で使う • vanilla version の学習と異なり, この段階では Text 部分 は title + abstract しか用いない 10 / 16
実験 評価タスク • Zero-shot Inference • Supervised Classification • Name
Disambiguation • Link Prediction • NLP Tasks 11 / 16
Zero-shot Inference prompt とは... 出力部の前に "Field of study:" のようなトークンを出力すること 12
/ 16
他のタスク Supervised Classification → モデルの重みそのままの freeze 設定では OAG-BERT が SciBERT
を全般的に上回るが, 訓練データで fine-tuning すると SciBERT がほぼ 互角になる author 情報を加えると affiliation 分類に役立つ(割と当たり前), field of study 情報は venue 分類に役立つが affiliation 分類にはあまり役立た ない, などの傾向も見られる 13 / 16
他のタスク Name Disambiguation (同じ著者の名前の論文を, 同じ人ごとにクラス タさせるタスク) → SciBERT を上回る (F1
で 0.05 ポイント程度) Link Prediction (Paper-Field, Paper-Venue リンク) heterogeneous graph transformer (HGT) において文字を encode する部 分を元の XLNet から OAG-BERT に置き換えるとスコアが高くなる (SciBERT で置き換えた場合よりも高い) 14 / 16
NLP tasks 15 / 16
まとめ・感想 • 特殊な方法で事前学習しても NLP tasks のパフォーマンスにあま り影響を受けないというのが面白い • わざわざ vanilla
バージョンで著者含めて tokenize したことから 考えるに、vocabulary の情報がかなり重要そう? • CS, BioMed 以外の分野の論文で事前学習して違いを調べたりし てほしいが, 世の中の研究者にそういうモチベーションがあまり ないのかもしれない 16 / 16