Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】SPECTER: Document-level Representation Le...
Search
Kaito Sugimoto
November 02, 2020
Research
0
420
【論文紹介】SPECTER: Document-level Representation Learning using Citation-informed Transformers
研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
November 02, 2020
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
110
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
230
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
250
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
450
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
230
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
150
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
420
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
920
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
250
Other Decks in Research
See All in Research
インドネシアのQA事情を紹介するの
yujijs
0
170
Weekly AI Agents News! 12月号 論文のアーカイブ
masatoto
0
250
SpectralMamba: Efficient Mamba for Hyperspectral Image Classification
satai
3
200
ベイズ的方法に基づく統計的因果推論の基礎
holyshun
0
920
PostgreSQLにおける分散トレーシングの現在 - 第50回PostgreSQLアンカンファレンス
seinoyu
0
290
資産間の相関関係を頑健に評価する指標を用いたファクターアローケーション戦略の構築
nomamist
0
170
言語モデルLUKEを経済の知識に特化させたモデル「UBKE-LUKE」について
petter0201
0
300
公立高校入試等に対する受入保留アルゴリズム(DA)導入の提言
shunyanoda
0
320
JSAI NeurIPS 2024 参加報告会(AI アライメント)
akifumi_wachi
5
930
アプリケーションから知るモデルマージ
maguro27
0
290
Gemini と Looker で営業DX をドライブする / Driving Sales DX with Gemini and Looker
sansan_randd
0
190
Sosiaalisen median katsaus 03/2025 + tekoäly
hponka
0
480
Featured
See All Featured
A Philosophy of Restraint
colly
203
16k
Speed Design
sergeychernyshev
28
860
Measuring & Analyzing Core Web Vitals
bluesmoon
6
320
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.4k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.2k
Building Your Own Lightsaber
phodgson
104
6.3k
Optimising Largest Contentful Paint
csswizardry
35
3.2k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.5k
Writing Fast Ruby
sferik
628
61k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2.1k
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.6k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
30k
Transcript
SPECTER: Document-level Representation Learning using Citation-informed Transformers Cohan et al.,
ACL 2020 杉本 海人 Aizawa Lab. B4 2020/11/02 1 / 17
読んだ論文 ACL 2020 https://www.aclweb.org/anthology/2020.acl-main.207.pdf 2 / 17
どんな論文? • 文書間の関係の情報(引用ネットワークなど)を BERT に取り入 れて, document representation を生成する方法を新たに提案 •
論文の分類や推薦などの多くの downstream task で有効性を確認 なぜ読んだか: • context-aware citation recommendation という, 論文の特定の位置 からその箇所に対応づけるべき論文を選ぶタスクに興味を持っ ているが, BERT はまだ殆ど使われていない. 論文の埋め込みは BERT でどのように行うのが良いのかに興味 があった 3 / 17
論文の背景 • BERT のような pre-trained のニューラル言語モデルが word や sentence 単位の埋め込みにおいて有用であることは広く研究さ
れてきたが, document 全体の埋め込みに関しては相対的に研究が 少ない • 特に scientific paper analysis において, 引用ネットワークの埋め込 み自体は Graph Convolutional Network など研究されてきたが, そ れを BERT の 学習時に活かせていなかった 4 / 17
関連研究 hyperdoc2vec: Distributed Representations of Hypertext Documents (ACL 2018): (BERT
ではないが引用の情報を意識して学習) 5 / 17
関連研究 A Context-Aware Citation Recommendation Model with BERT and Graph
Convolutional Networks (2019) (BERT と GCN を組み合わせて論文推薦, ここでは引用の情報は BERT とは別物になっている) 6 / 17
提案手法 SPECTER: Scientific Paper Embeddings using Citation-informed TransformERs • 論文の埋め込みを
Transformer ベースで得る新たな手法 • Transformer を SciBERT(Semantic Scholar の論文で pre-trained さ れた BERT)で初期化する • SciBERT はすでに論文の中身に関する言語情報を獲得している と考えられるが, 論文間の関係情報は一切考慮していない。これ を考慮できるようにさらに学習する 7 / 17
提案手法: Training クエリの論文 PQ だけでなく, positive paper P+, negative paper
P− も加 えた 3 つ組 を入力として使う。 8 / 17
提案手法: Training P+: PQ が引用した論文 P−: 2 種類の選び方がある。1 つは, PQ
が引用していない論文からラ ンダムに 1 つ選ぶ。 もう 1 つは, P+ が引用しているにもかかわらず PQ が引用していない 論文からランダムに 1 つ選ぶ(hard neagtives) 。もし全くクエリに関 係ない論文なら, そのクエリが引用した論文とも全く関係ないのは自 明であるが, hard negatives では自明でない例を学習するということに なる。 9 / 17
提案手法: Training PQ, P+, P− それぞれの論文を入力として, Transformer モデルに入れ, [CLS] トークンの出力から埋め込みを得る.
入力形式は, 基本的には「論文のタイトル + abstract」としている。後 の実験で, abstract を使わないタイトルのみ場合や author(著者), venue(会議名)のメタ情報を入力に加えた場合とも比較している。 これら 3 つの埋め込みについて, 以下のような TripletMarginLoss を計 算し, back propagation する. 10 / 17
提案手法: Evaluation • クエリ論文 P を学習した Transformer モデルに入れ, [CLS] トーク
ンの出力から埋め込みを得る • 推論時には引用ネットワーク情報が不要というのがポイント 11 / 17
実験: pre-trained model の作成 • Semantic Scholar から 146K のクエリ論文を訓練用に,
32K の論文 を validation 用に抽出した。クエリ論文 1 つに対し, 最大 5 つの PQ, P+, P− の 3 つ組を作成。 5 つの 3 つ組のうち 2 つは hard negatives, 3 つは easy negatives となっている。 累計 684K の 3 つ組を訓練用に, 145K を validation 用に用意した • https://github.com/allenai/specter 12 / 17
実験: タスク・データセット scientific paper embeddings を包括的に評価するための新たなフレーム ワークである SCIDOCS を用意した(この論文のもう 1
つのポイ ント) 。 SCIDOCS では論文に関する 7 つのタスクで評価する。 • MeSH Classification • Paper Topic Classification • Citation Prediction (Direct Citations) • Citation Prediction (Co-Citations) • User Activity (Co-Views) • User Activity (Co-Reads) • Recommendation 13 / 17
結果 14 / 17
分析: Ablation Study 15 / 17
分析: Visualization 16 / 17
分析: Comparison with Task Specific Fine-Tuning 17 / 17