Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] Do Transformers Really Perform B...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 15, 2022
Technology
4k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[Journal club] Do Transformers Really Perform Bad for Graph Representation?
慶應義塾⼤学 杉浦孔明研究室 B4 和田唯我 / Yuiga Wada
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 15, 2022
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
42
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
100
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
100
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
90
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
160
A Gentle Introduction to Transformers
keio_smilab
PRO
16
6.9k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
58
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
140
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
200
Other Decks in Technology
See All in Technology
スタートアップにAmazon EKSは早すぎる? マルチプロダクト戦略を加速する Platform Engineeringの実践 / Is Amazon EKS Too Soon for Startups? Practical Platform Engineering to Accelerate a Multi-Product Strategy
elmodev09
1
1.8k
自分が詳しくない領域でAIを使う #プロヒス2026
konifar
20
7.5k
クレデンシャル流出 ― 攻撃 3 時間 vs 復旧 10 時間。この非対称性にどう備えるか
kazzpapa3
3
580
OTel × Datadog で 「AI活用」を計測し、改善に繋げる
shihochan
2
870
製造現場での生成AIの活用、およびエージェントAIの実装のあり方、AVEVAの取り組み
iotcomjpadmin
0
120
GitHub Copilot 最新アップデート – 「一歩先」の実践活用術
moulongzhang
5
1.9k
40代で“やっとエンジニアになれた”――閉じた学びを開き、空の青さを知る / 20260628 Naoki Takahashi
shift_evolve
PRO
4
900
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
1
430
脱SaaS!FDEを支えるプロビジョニングと分離設計
knih
0
300
從開發到部署全都交給 AI:實作 AI 驅動的自動化流程
appleboy
0
170
Deep Data Security 機能解説
oracle4engineer
PRO
2
180
アラート調査向けAIエージェントの本番導入とその後/AI Agents for Alert Investigation: Production Deployment and After
taddy_919
1
170
Featured
See All Featured
エンジニアに許された特別な時間の終わり
watany
107
250k
Building Applications with DynamoDB
mza
96
7.1k
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
310
Design in an AI World
tapps
1
250
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
56k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.9k
Side Projects
sachag
455
43k
What does AI have to do with Human Rights?
axbom
PRO
1
2.2k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
210
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
200
Scaling GitHub
holman
464
140k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
240
Transcript
Do Transformers Really Perform Bad for Graph Representation? Chengxuan Ying1
, Tianle Cai2 , Shengjie Luo3 , Shuxin Zheng4 , Guolin Ke4 , Di He4 , Yanming Shen1, Tie-Yan Liu4 (1Dalian University of Technology, 2Princeton University, 3Peking University 4Microsoft Research Asia) 慶應義塾⼤学 杉浦孔明研究室 B4 和⽥唯我 Chengxuan Ying et al. , “Do transformers really perform badly for graph representation?”, in NeurIPS (2021) NeurIPS 2021
和田唯我 / Yuiga Wada
概要 2 ü 背景 • Transformer構造がグラフの学習に適しているかどうかは未だ不明 ü 提案⼿法 • Transformerをベースとしたグラフ学習⼿法
Graphormerを提案 ü 結果 • GNNベースの⼿法やGraph Transformerを超える性能を達成
背景・関連研究: Transformerがグラフの学習に適しているかどうかは未だ不明 3 • Transformer [Vaswani+ NeurIPS17] ベースのグラフ学習⼿法は存在するが, いずれもGNNの⽂脈で研究されてきた ⇒
Transformer構造がグラフの学習に適しているかどうかは未だ不明 ベース 既存⼿法 GNN • GCN[Kipf+, ICLR17] • GIN[Ying+, NeurIPS18] Transformer • Graph Transformer [Dwivedi+, AAAI21] Graph Transformer [Dwivedi+, AAAI21]
提案⼿法: Graphormer 4 o Transformerをベースとしたグラフ学習⼿法 • ⼊⼒: ノードに対応する特徴量 • グラフ構造を扱えるようにAttention機構を変更
o 新規性 ① Centrality Encoding ② Spatial Encoding ③ Edge Encoding ② ③
① Centrality Encoding: ⼊次数と出次数を埋め込む 5 • ノードの次数は重要な特徴量となり得る • 例: SNSでのフォロー・フォロワー数
→ ノードの影響⼒や重要度に直結 • ノード 𝑣! の特徴量 𝑥! について, 以下のように 𝑥! ⟼ ℎ! (#) を定義 • は学習可能パラメタであり, Centralityの埋め込みを⾏う ノード 𝑣! の⼊次数 ノード 𝑣! の出次数
① Centrality Encoding: 次数埋め込み後, ℎ ! (#)を算出 6 1. ノード
𝑣! の特徴量 𝑥! について, 𝑥! ⟼ ℎ! (#) を計算 2. ℎ! (&'()から ℎ! (&)を算出 (Graphormer Layers) ノード 𝑣! の⼊次数 ノード 𝑣! の出次数
② Spatial Encoding: Attentionに位置埋め込みを追加 7 • Transformerの強さは受容野の広さだが, 位置関係の埋め込みが必要 • 系列データならばPositional
Encoding(PE)で⼗分だが, グラフ上の位置関係の埋め込みにPEは不適切 • 提案⼿法: Spatial Encoding • ノード間の距離を表す 写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ を⽤いて, Attentionに以下の項を追加
② Spatial Encoding: SPDによりAttentionを調整可能に 8 • 提案⼿法: Spatial Encoding •
写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ として本論⽂ではSPD(最短経路距離)を採⽤ • 隣接ノードのみを⾒るGNNよりも広い受容野を獲得可 (AGGREGATE) • 𝑏* (𝑣! , 𝑣) )は学習可能パラメタであり, 𝑏* によりAttentionを SPDで調整できる • 例えば𝜙(⋅)に対して 𝑏* が単調減少ならば, より隣接周囲へとAttentionが強く 掛かるようになる
② Spatial Encoding: SPDを採⽤する妥当性 9 • 写像 𝜙 𝑣!, 𝑣)
: 𝑉 × 𝑉 → ℝ としてSPD(最短経路距離)を採⽤することで, 1-WL-testで同型識別できないグラフを識別可能 → SPDによりMessage Passing型の古典的なGNNよりも強⼒な表現⼒を獲得可能 ⇒ 写像 𝜙 𝑣! , 𝑣) にSPDを採⽤する妥当性が確認できる 互いに同型でないグラフ (1-WL-testで識別不可)
③ Edge Encoding: エッジの特徴量をAttentionに埋め込む 10 • エッジの情報 𝑒 ∈ 𝓔
も重要な特徴量なので, 埋め込む必要がある • 例: 分⼦構造の解析ではエッジに結合情報が存在 • 提案⼿法: Edge Encoding • 最短経路 の特徴量𝑥+! の加重和𝑐!) をAttentionに追加 𝑤" # ∈ ℝ$! → n番⽬のEmbedding
[VNode] トークン: 超頂点VNodeをvirtualに追加 11 • ⼊⼒の先頭に特殊な[VNode]トークンを追加 • BERT [Devlin+, NAACL19]
における[CLS]トークンと同様の仕組み • 最終層でグラフ全体の特徴量として取り出される • グラフ上では, 全てのノードとSPD=1で繋がる超頂点VNodeを成す • ただし, 実際にノードを追加するわけではない (=virtualに接続される) ⇒ Virtualに接続されているかどうかを区別するため, 𝑏* VNode , 𝑣! は 他の𝑏* と独⽴した学習可能パラメタとする
GraphormerはGCNやGINといったGNN⼿法を表現可能 12 • ⼀般的なGNNの学習スキーム (GCN[Kipf+, ICLR17], GIN[Ying+, NeurIPS18]) • MEAN
AGGREGATEの表現 • 𝜙 = 1 ⇒ 𝑏* = 1 , 𝜙 ≠ 1 ⇒ 𝑏* = −∞ • 𝑊/ = 𝑊0 = 0 , 𝑊1 = 𝐼 • 上のように設定すれば, 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝐴 𝑉 は隣接ノードの平均を表現 • 同様に, 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝐴 𝑉 に次数を掛ければ SUM AGGREGATEを表現できる
GraphormerはGCNやGINといったGNN⼿法を表現可能 13 • ⼀般的なGNNの学習スキーム • COMBINEの表現 • 前述のAGGREGATE近似に加えて, • 𝜙
= 0 ⇒ 𝑏* = 0 , 𝜙 ≠ 0 ⇒ 𝑏* = −∞ • 𝑊/ = 𝑊0 = 0 , 𝑊1 = 𝐼 • 上のように設定すれば, Transformer内のFFNにおいて, 普遍近似定理より任意のCOMBINEを表現可能
定量的結果: GNN系⼿法および既存⼿法を上回る結果を記録 14 • データセット: PCQM4M-LSC (分⼦の量⼦特性を予測するタスク) → GNN系⼿法およびGraph Transformerを上回る結果を記録
Graph Transformer [Dwivedi+, AAAI21]
Ablation: Centrality Encoding, Spatial Encoding, Edge Encoding は全て有効 15 •
Laplacian PE: PEとしてラプラシアン⾏列 𝐿 の固有ベクトルを使⽤ (𝐿 の固有値は周波数的側⾯を持つ. Graph Transformerで導⼊された機構) ⇒ Centrality Encoding, Spatial Encoding, Edge Encoding は全て有効
まとめ 16 ü 背景 • Transformer構造がグラフの学習に適しているかどうかは未だ不明 ü 提案⼿法 • Transformerをベースとしたグラフ学習⼿法
Graphormerを提案 ü 結果 • GNNベースの⼿法やGraph Transformerを超える性能を達成
Appendix: MAX AGGREGATEの表現 17
Appendix: 1-WL-testとSPD 18