Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介_Are Embedded Potatoes Still Vegetables_ On...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ShitoRyo
December 20, 2023
Research
150
0
Share
論文紹介_Are Embedded Potatoes Still Vegetables_ On the Limitation of WordNet Embeddings for Lexical Semantics
ShitoRyo
December 20, 2023
More Decks by ShitoRyo
See All by ShitoRyo
論文紹介_LSC-Eval: A General Framework to Evaluate Methods for Assessing Dimensions of Lexical Semantic Change Using LLM-Generated Synthetic Data
lexusd
0
20
Tutorial of Coding Environment for Research by Docker
lexusd
0
31
Computational Approaches for Diachronic Semantic Change Detection_2024_8
lexusd
0
50
論文紹介_Learning Dynamic Contextualised Word Embeddings via Template-based Temporal Adptation
lexusd
0
140
論文紹介_Interpretable Word Sense Representations via Definition Generation_ The Case of Semantic Change Analysis
lexusd
0
120
論文紹介_Twitter Topic Classification
lexusd
0
110
論文紹介_What is Done is Done_ an Incremental Approach to Semantic Shift Detection
lexusd
0
120
Demoの作り方_研究会チュートリアル
lexusd
0
170
論文紹介_Ruddit_Norms of Offensiveness for English Readdit Comments
lexusd
0
60
Other Decks in Research
See All in Research
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
1k
AIを叩き台として、 「検証」から「共創」へと進化するリサーチ
mela_dayo
0
250
東京大学工学部計数工学科、計数工学特別講義の説明資料
kikuzo
0
320
進学校の生徒にはア行の苗字が多いのか
ozekinote
0
380
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
220
Unified Audio Source Separation (Defense Slides)
kohei_1979
1
580
正規分布と最適化について
koide3
0
130
2026年1月の生成AI領域の重要リリース&トピック解説
kajikent
0
980
非試合日の野球場を楽しむためのARホームランボールキャッチ体験システムの開発 / EC79-miyazaki
yumulab
0
150
生成AI による論文執筆サポート・ワークショップ 論文執筆・推敲編 / Generative AI-Assisted Paper Writing Support Workshop: Drafting and Revision Edition
ks91
PRO
0
190
「AIとWhyを深堀る」をAIと深堀る
iflection
0
260
An Open and Reproducible Deep Research Agent for Long-Form Question Answering
ikuyamada
0
420
Featured
See All Featured
Heart Work Chapter 1 - Part 1
lfama
PRO
6
35k
We Are The Robots
honzajavorek
0
220
Fireside Chat
paigeccino
42
3.9k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.6k
30 Presentation Tips
portentint
PRO
1
280
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
470
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.7k
The Curious Case for Waylosing
cassininazir
0
320
Six Lessons from altMBA
skipperchong
29
4.2k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
140
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
100
Transcript
EMNLP 2023 2023.12.20 M2 凌 志棟 1
概要 Knowledge Base Embedding(KBE)が語義をモデリングする能力を調べた。 2つの仮説: • KBEモデルは単語間の関係を捉えている⇒語義も捉えられている。 • KBEモデルの関係予測性能は他のタスクの性能の代理(Proxy) を検証
結果どちらも成立しなかった(むしろ負の相関) 2
Knowledge Base Embedding (KBE) Models Knowledge Base = 知識グラフ Knowledge
Baseには(h,r,t)のようなトリプルが含まれている ノード (Entity) h と t は関係 r で連結 e.g. BERT is a Transformerの場合 (BERT, is a, Transformer) KBEはこのような関係をベクトル空間でうまく表現するには v BERT + v is a = v Transformer を成立させる ノードとその関係をモデリングするのはKBEモデル 3 BERT Transformer is a h t r
TransE [Bordes+, 2013] モチベ:(h,r,t)の関係をv h + v r ≈ v
t で表現 トリプルの関係の正しさを関係スコア f(h,r,t)=||v h + v r - v t || (ノルム)で表現 正しいトリプルであれば f(h,r,t) が0に近い トリプル集合Dとして、目的関数L(V)を最小化するように学習 4 Dにある正例 hかtをランダムに置き換えた負例
DistMult[Yang+, 2015] TransEと違って、関係を行列で表現する関係スコアを使う f(h,r,t) = vT h Rv t Rは対称な関係行列にしたため、行列対角化することで計算速度向上
f(h,r,t)=f(t,r,h)はモデリングできるが、非対称関係は不向き(1対n) 5
他のKBEモデル • MuRP [Balaževic+, 2019] ◦ 双曲空間埋め込みでノードを表現し、メビウス変換で関係を表現 ◦ 階層関係や (1対n)(n対n)関係をうまく表現できた
• KBGAT[Nathani+, 2019]、rGAT[Chen+, 2021] ◦ Graph Neural Network(GNN)ベースのモデル、より複雑な関係を Graph Attentionで表現 ◦ 関係予測タスクにつよい • FuncE [Chen+, 2023]←本研究で提案 ◦ ノードをファジィ関数 f:Rn→[0,1] で表現 ◦ 異なる種類の関係に対して異なる関係スコアを使用 (同義語ならDistMult、ほかはTransE) ◦ ノードの上位下位関係を自然に表現できる 6
KBEモデルの訓練・評価用データセット • WN18[Bordes+, 2013] ◦ WordNetから抽出したトリプル集合 • WN18RR[Dettmers+, 2018] ◦
WN18の逆関係をフィルタリング • WN18A ◦ 関係種類を増やさずにノード数とトリプル数を増やす • WN25 ◦ 全部増やす 7 データセット 関係数 ノード数 トリプル数 WN18 18 40,943 141,442 WN18RR 11 40,943 93,003 WN18A 18 112,195 217,495 WN26 25 116,744 363,593
検証実験設定 • (再考)仮説: ◦ KBEモデルは単語間の関係を捉えている⇒語義も捉えられている。 ◦ KBEモデルの関係予測性能は他のタスクの性能の代理=関係予測ができれば語義タスクもできる • 使用するモデル: ◦
TransE, DistMult, MuRP, FuncE, KBGAT, rGAT, Wnet2vec (Baseline) • 訓練データ:WN18RR, WN18A, WN25 • パラメータ:Table 8 • 評価指標: ◦ 関係予測タスク:MRR(平均逆順位)とHits@k(正解が上位k個の答えにある割合) ◦ 語義タスク:4種類のタスクで評価 8
語義モデリング性能評価 • Word Similarity: SimLex999 ◦ Spearman rho • Word
Analogy: BATS ◦ Hits@10 • POS-tagging: PTB ◦ acc. • NER: CoNLL’03 ◦ F1 score 9
関係予測タスクと語義タスクの性能は負の相関 10
Good at Link Prediction ≠ Good at Semantics • 関係予測の性能と語義タスクの性能が負の相関
• 同種類タスクの性能は正の相関 11
関係予測タスクと語義タスクの性能は負の相関 12
語義類似性・類推は品詞タグ付け・NERと正の相関 13
訓練データ量の影響 • 訓練データを増やしても性能向上は見られない(むしろ低下した場合が多い) • DistMultとrGATの性能低下は関係スコアが言語性質を考慮しないに起因すると 14
上位関係が近い単語の語義類似性を表現しにくい • 上位関係が近い単語の類似度が高いはず • TransEはOKだが、DistMultとrGATは表現できていない 15 ナス科野菜_________
上下位関係の推移性を表現しにくい • ほぼ全部のKBEモデルが上位語の推移関係を予測できない • FuncEはファジィ関数のため性質上推移を表現できる 16 Potatoは野菜、野菜は食べ物⇒Potatoは食べ物
語義タスクで単語品詞別の影響とデータ量の影響 • 類似度タスクでは形容詞が名詞と動詞より結果がよい • KBEモデルは辺の数が多いノードに高い類似度を与える傾向がある • 関連性は高いが類似度が低い関係に高いスコア は SimLexの語義類似度に反する • WN18A→WN25データを増やすことで、類似度タスクで性能低下・類推タスクが性能向上
17
本研究はKEBモデルの語義モデリング能力を評価した。 2つの仮説を検証したところ • KBEモデルは、関係予測でいい性能≠語義類似度タスクでいい性能 • 関係予測評価はKBEモデルの語義モデリング能力の評価に向いていない Conclusions 18