Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-...
Search
Kaito Sugimoto
May 24, 2021
Research
0
180
【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models
研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
May 24, 2021
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
96
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
210
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
230
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
420
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
190
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
130
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
380
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
850
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
230
Other Decks in Research
See All in Research
CUNY DHI_Lightning Talks_2024
digitalfellow
0
130
多様かつ継続的に変化する環境に適応する情報システム/thesis-defense-presentation
monochromegane
1
590
Language is primarily a tool for communication rather than thought
ryou0634
4
790
KDD論文読み会2024: False Positive in A/B Tests
ryotoitoi
0
240
文書画像のデータ化における VLM活用 / Use of VLM in document image data conversion
sansan_randd
2
320
Composed image retrieval for remote sensing
satai
2
130
言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)
yukiar
4
920
LLM時代にLabは何をすべきか聞いて回った1年間
hargon24
1
530
Leveraging LLMs for Unsupervised Dense Retriever Ranking (SIGIR 2024)
kampersanda
2
250
Weekly AI Agents News! 9月号 プロダクト/ニュースのアーカイブ
masatoto
2
170
メールからの名刺情報抽出におけるLLM活用 / Use of LLM in extracting business card information from e-mails
sansan_randd
2
270
Weekly AI Agents News! 9月号 論文のアーカイブ
masatoto
1
150
Featured
See All Featured
Bash Introduction
62gerente
608
210k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
28
2.1k
Facilitating Awesome Meetings
lara
50
6.1k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
28
4.4k
YesSQL, Process and Tooling at Scale
rocio
169
14k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Making Projects Easy
brettharned
116
5.9k
Statistics for Hackers
jakevdp
796
220k
Scaling GitHub
holman
458
140k
Building Adaptive Systems
keathley
38
2.3k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
111
49k
Transcript
OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models Liu et al.
Kaito Sugimoto Aizawa Lab. M1 2021/05/24 1 / 16
どんな論文? • ドメイン知識を考慮した学術論文事前学習モデルを提案 • Open Academic Graph (OAG) を活用して, 論文のテキストだけで
なく Author, Field of Study, Venue, Affiliation などの Entity 情報を同 時に学習する • Entity 情報が重要になる各種タスクにおいて, SciBERT のスコア を上回る 2 / 16
Academic Graph とは • 論文, 著者, Venue (会議 or ジャーナル)
などの Entity と, authorship (論文-著者 間), paper-publish-in-venue (論文-Venue 間), co-authorship (著者-著者 間) などの Relation から構成されるグ ラフ 3 / 16
Academic Graph の例 • AMiner (KDD ’08) • Microsoft Academic
Graph (MAG) (WWW ’15) • Open Academic Graph (OAG) (KDD ’19) • AMiner を開発した Tsinghua University(精華大学) と MAG を開発した Microsoft の共同研究プロジェクト • https://www.microsoft.com/en-us/research/project/ open-academic-graph/ 4 / 16
OAG 5 / 16
OAG-BERT • 論文に関係する様々な Entity 情報も含めて学習を行う • 以下の 2 つのステップに分かれる •
First Stage: Pre-train the vanilla OAG-BERT. • Second Stage: Enrich OAG-BERT with entity knowledge. 6 / 16
First Stage: Pre-train the vanilla OAG-BERT vanilla version (Entity 情報を含めない,
SciBERT と同じテキストだけの 学習) の OAG-BERT を作成する AMiner に含まれる論文 PDF および PubMed XML の合計 500 万本の論 文テキストを学習に使う SciBERT との違いは? • SciBERT は Semantic Scholar から CS+BioMed 分野の計 114 万本 の論文で事前学習していた. • SciBERT は本文テキストを使うのに対し, OAG-BERT は本文のタ イトルと要旨の間に著者名も挿入する → この時点で著者の vocabularary が多い 7 / 16
Second Stage: Enrich OAG-BERT with entity knowledge 8 / 16
Second Stage: Enrich OAG-BERT with entity knowledge Entity-aware 2D-positional encoding
• Entity 間の区別と, Entity 内の語順の識別のために行う Span-aware entity masking • ERNIE や SpanBERT などの既存の Entity を考慮するモデルと同 様, いくつかの連続した token を MASK して予測させる • MASK する span の長さは幾何分布からサンプル (SpanBERT で効 果的だったから (? )) 9 / 16
Second Stage: Enrich OAG-BERT with entity knowledge 学習 • 少なくとも
3 本は論文を出している著者の論文からランダムに選 び, 1 億 2000 万本の論文を, Author, Fields of Study, Venue, Affiliation とともに学習で使う • vanilla version の学習と異なり, この段階では Text 部分 は title + abstract しか用いない 10 / 16
実験 評価タスク • Zero-shot Inference • Supervised Classification • Name
Disambiguation • Link Prediction • NLP Tasks 11 / 16
Zero-shot Inference prompt とは... 出力部の前に "Field of study:" のようなトークンを出力すること 12
/ 16
他のタスク Supervised Classification → モデルの重みそのままの freeze 設定では OAG-BERT が SciBERT
を全般的に上回るが, 訓練データで fine-tuning すると SciBERT がほぼ 互角になる author 情報を加えると affiliation 分類に役立つ(割と当たり前), field of study 情報は venue 分類に役立つが affiliation 分類にはあまり役立た ない, などの傾向も見られる 13 / 16
他のタスク Name Disambiguation (同じ著者の名前の論文を, 同じ人ごとにクラス タさせるタスク) → SciBERT を上回る (F1
で 0.05 ポイント程度) Link Prediction (Paper-Field, Paper-Venue リンク) heterogeneous graph transformer (HGT) において文字を encode する部 分を元の XLNet から OAG-BERT に置き換えるとスコアが高くなる (SciBERT で置き換えた場合よりも高い) 14 / 16
NLP tasks 15 / 16
まとめ・感想 • 特殊な方法で事前学習しても NLP tasks のパフォーマンスにあま り影響を受けないというのが面白い • わざわざ vanilla
バージョンで著者含めて tokenize したことから 考えるに、vocabulary の情報がかなり重要そう? • CS, BioMed 以外の分野の論文で事前学習して違いを調べたりし てほしいが, 世の中の研究者にそういうモチベーションがあまり ないのかもしれない 16 / 16