Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-...
Search
Kaito Sugimoto
May 24, 2021
Research
0
210
【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models
研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
May 24, 2021
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
130
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
270
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
260
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
510
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
260
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
160
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
460
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
990
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
280
Other Decks in Research
See All in Research
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
1.5k
業界横断 副業・兼業者の実態調査
fkske
0
220
PhD Defense 2025: Visual Understanding of Human Hands in Interactions
tkhkaeio
1
150
「どう育てるか」より「どう働きたいか」〜スクラムマスターの最初の一歩〜
hirakawa51
0
800
VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs
satai
4
100
[CV勉強会@関東 CVPR2025] VLM自動運転model S4-Driver
shinkyoto
2
440
NLP Colloquium
junokim
1
190
カスタマーサクセスの視点からAWS Summitの展示を考える~製品開発で活用できる勘所~
masakiokuda
2
180
NLP2025参加報告会 LT資料
hargon24
1
350
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
160
心理言語学の視点から再考する言語モデルの学習過程
chemical_tree
2
540
多言語カスタマーインタビューの“壁”を越える~PMと生成AIの共創~ 株式会社ジグザグ 松野 亘
watarumatsuno
0
110
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
83
9.1k
Art, The Web, and Tiny UX
lynnandtonic
301
21k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.6k
KATA
mclloyd
32
14k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.6k
The World Runs on Bad Software
bkeepers
PRO
70
11k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
30
9.6k
Site-Speed That Sticks
csswizardry
10
770
How to train your dragon (web standard)
notwaldorf
96
6.2k
Transcript
OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models Liu et al.
Kaito Sugimoto Aizawa Lab. M1 2021/05/24 1 / 16
どんな論文? • ドメイン知識を考慮した学術論文事前学習モデルを提案 • Open Academic Graph (OAG) を活用して, 論文のテキストだけで
なく Author, Field of Study, Venue, Affiliation などの Entity 情報を同 時に学習する • Entity 情報が重要になる各種タスクにおいて, SciBERT のスコア を上回る 2 / 16
Academic Graph とは • 論文, 著者, Venue (会議 or ジャーナル)
などの Entity と, authorship (論文-著者 間), paper-publish-in-venue (論文-Venue 間), co-authorship (著者-著者 間) などの Relation から構成されるグ ラフ 3 / 16
Academic Graph の例 • AMiner (KDD ’08) • Microsoft Academic
Graph (MAG) (WWW ’15) • Open Academic Graph (OAG) (KDD ’19) • AMiner を開発した Tsinghua University(精華大学) と MAG を開発した Microsoft の共同研究プロジェクト • https://www.microsoft.com/en-us/research/project/ open-academic-graph/ 4 / 16
OAG 5 / 16
OAG-BERT • 論文に関係する様々な Entity 情報も含めて学習を行う • 以下の 2 つのステップに分かれる •
First Stage: Pre-train the vanilla OAG-BERT. • Second Stage: Enrich OAG-BERT with entity knowledge. 6 / 16
First Stage: Pre-train the vanilla OAG-BERT vanilla version (Entity 情報を含めない,
SciBERT と同じテキストだけの 学習) の OAG-BERT を作成する AMiner に含まれる論文 PDF および PubMed XML の合計 500 万本の論 文テキストを学習に使う SciBERT との違いは? • SciBERT は Semantic Scholar から CS+BioMed 分野の計 114 万本 の論文で事前学習していた. • SciBERT は本文テキストを使うのに対し, OAG-BERT は本文のタ イトルと要旨の間に著者名も挿入する → この時点で著者の vocabularary が多い 7 / 16
Second Stage: Enrich OAG-BERT with entity knowledge 8 / 16
Second Stage: Enrich OAG-BERT with entity knowledge Entity-aware 2D-positional encoding
• Entity 間の区別と, Entity 内の語順の識別のために行う Span-aware entity masking • ERNIE や SpanBERT などの既存の Entity を考慮するモデルと同 様, いくつかの連続した token を MASK して予測させる • MASK する span の長さは幾何分布からサンプル (SpanBERT で効 果的だったから (? )) 9 / 16
Second Stage: Enrich OAG-BERT with entity knowledge 学習 • 少なくとも
3 本は論文を出している著者の論文からランダムに選 び, 1 億 2000 万本の論文を, Author, Fields of Study, Venue, Affiliation とともに学習で使う • vanilla version の学習と異なり, この段階では Text 部分 は title + abstract しか用いない 10 / 16
実験 評価タスク • Zero-shot Inference • Supervised Classification • Name
Disambiguation • Link Prediction • NLP Tasks 11 / 16
Zero-shot Inference prompt とは... 出力部の前に "Field of study:" のようなトークンを出力すること 12
/ 16
他のタスク Supervised Classification → モデルの重みそのままの freeze 設定では OAG-BERT が SciBERT
を全般的に上回るが, 訓練データで fine-tuning すると SciBERT がほぼ 互角になる author 情報を加えると affiliation 分類に役立つ(割と当たり前), field of study 情報は venue 分類に役立つが affiliation 分類にはあまり役立た ない, などの傾向も見られる 13 / 16
他のタスク Name Disambiguation (同じ著者の名前の論文を, 同じ人ごとにクラス タさせるタスク) → SciBERT を上回る (F1
で 0.05 ポイント程度) Link Prediction (Paper-Field, Paper-Venue リンク) heterogeneous graph transformer (HGT) において文字を encode する部 分を元の XLNet から OAG-BERT に置き換えるとスコアが高くなる (SciBERT で置き換えた場合よりも高い) 14 / 16
NLP tasks 15 / 16
まとめ・感想 • 特殊な方法で事前学習しても NLP tasks のパフォーマンスにあま り影響を受けないというのが面白い • わざわざ vanilla
バージョンで著者含めて tokenize したことから 考えるに、vocabulary の情報がかなり重要そう? • CS, BioMed 以外の分野の論文で事前学習して違いを調べたりし てほしいが, 世の中の研究者にそういうモチベーションがあまり ないのかもしれない 16 / 16