Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Word Sense Extension
Search
hajime kiyama
January 23, 2024
Research
0
75
Word Sense Extension
Japanese explanation
hajime kiyama
January 23, 2024
Tweet
Share
More Decks by hajime kiyama
See All by hajime kiyama
Analyzing Continuous Semantic Shifts with Diachronic Word Similarity Matrices.
rudorudo11
0
61
Using Synchronic Definitions and Semantic Relations to Classify Semantic Change Types
rudorudo11
0
19
Analyzing Semantic Change through Lexical Replacements
rudorudo11
0
230
意味変化分析に向けた単語埋め込みの時系列パターン分析
rudorudo11
0
84
Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations
rudorudo11
0
240
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
rudorudo11
0
110
The Geometry of Multilingual Language Model Representations
rudorudo11
0
150
What Context Features Can Transformer Language Models Use?
rudorudo11
0
44
Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation
rudorudo11
0
48
Other Decks in Research
See All in Research
PostgreSQLにおける分散トレーシングの現在 - 第50回PostgreSQLアンカンファレンス
seinoyu
0
260
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
satai
3
190
Batch Processing Algorithm for Elliptic Curve Operations and Its AVX-512 Implementation
herumi
0
120
資産間の相関関係を頑健に評価する指標を用いたファクターアローケーション戦略の構築
nomamist
0
150
大規模日本語VLM Asagi-VLMにおける合成データセットの構築とモデル実装
kuehara
5
1.3k
言語モデルLUKEを経済の知識に特化させたモデル「UBKE-LUKE」について
petter0201
0
260
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
240
Intrinsic Self-Supervision for Data Quality Audits
fabiangroeger
0
360
移動ビッグデータに基づく地理情報の埋め込みベクトル化
tam1110
0
250
打率7割を実現する、プロダクトディスカバリーの7つの極意(pmconf2024)
geshi0820
0
380
ECCV2024読み会: Minimalist Vision with Freeform Pixels
hsmtta
1
440
IM2024
mamoruk
0
240
Featured
See All Featured
Rails Girls Zürich Keynote
gr2m
94
13k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.4k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.7k
Bash Introduction
62gerente
611
210k
Product Roadmaps are Hard
iamctodd
PRO
51
11k
Navigating Team Friction
lara
183
15k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
The World Runs on Bad Software
bkeepers
PRO
67
11k
Agile that works and the tools we love
rasmusluckow
328
21k
Designing for humans not robots
tammielis
250
25k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2.1k
Transcript
木山朔 M1 論文紹介 ACL2023 11/1 1
Abstract • 新しい語義は人間の創造的な単語の使い方により発生 ◦ 単語の語義がどの様な方向で拡張されるかの予測タスクは存在しない • Word Sense Extention という語義拡張タスクを提案
◦ 多義語を二つの擬似トークンに分割し、従来の意味を持つトークンの拡張かどうかを判断 ◦ 新しい語義と既存の単語のペアリングを事前知識なしで実装したい • WSD(語義曖昧性解消) の rare word sense に対して効果があることを検証 2
Creative reuse of words : example of “arrive” 語の創造的使用による語義を獲得したい arrive
という単語を考える original: to come to locations (e.g., to arrive at the gate) extend1: to come to an event (e.g., to arrive at a concert) extend2: to achieve a goal or cognitive state (e.g., to arrive at a conclusion) 3
Related work • Models of word meaning extension ◦ lexical
semantics と cognitive linguistic の観点から語義拡張が議論 ◦ Chaining (連鎖) による認知的理論をもとにフレームワークを構築 • Models of word sense disambiguation ◦ WSD(語義曖昧性解消)ではデータスパースネスの問題 ◦ 低頻度語に関するWSDシステムの精度向上を狙う • Contextualized semantic representations ◦ 多義語を文脈化埋め込みで扱う ◦ 言い換えの研究は存在するが、意味拡張の研究は行われていない 4
Chaining:example of “grasp” and “get” • Chaining(連鎖)という現象とは? ◦ 既存の語義間の意味関係を識別し、その関係を一般化し新たな語義を生成すること •
grasp の例 ◦ 意味1「ものを掴む」 ◦ 意味2「アイデアを理解する」 ▪ この様な拡張が別の単語でもみられる • get の例 ◦ 意味1「車を手に入れる」 ◦ 意味2「誰かのアイデアを手に入れる」 ▪ 抽象化が grasp の場合と同じ! 5
Computational framework 3つの構成要素が存在 1. 多義語を異なる語義に対応する擬似トークンに分割 2. 語義選択のために、確率的な連鎖に基づいて語義拡張を定式化 3. 語義拡張の学習のための意味空間学習アルゴリズム 6
Sense-based word type partitioning (1/2) 文字の定義 • 多義語の集合: • 語義集合:
• 文脈と語義のペア: • トークン: ◦ 既存の語義集合内のトークン: ◦ 拡張された語義のトークン: ▪ 単語 w が既存の語義から拡張される新しい語義 s* を表す 7
Sense-based word type partitioning (2/2) ある多義語 w の特定の語義 s* を知らない状況で、語義
s を表現するシナリオ • 多義語 w を二つのトークンに分割 ◦ 既存の語義集合内のトークン: ◦ 拡張された語義のトークン: ▪ 単語 w が既存の語義から拡張される新しい語義 s* を表す • 文脈化された言語モデルを0から学習 ◦ MLM で学習 ◦ マスクされたトークンを埋める際に確率が最大となるように学習 8
Probabilistic formulation of WSE • 単語 w を t*, t0
に置き換えた文脈と語義のペア集合を C*,C0 とする ◦ 既存の語義集合内のトークン: ◦ 拡張された語義のトークン: • WSEタスクの具体的な内容 ◦ w = arrive ◦ s* = “to achieve a goal” ◦ c = “They finally t* at a conclusion after a long debate” ◦ t* としてソーストークン t = arrive が得られるか ◦ m(-) : - を入力とした際のモデルの表現 9
Chaining-based models of WSE • 用語の整理 ◦ h(-):文脈化埋め込み ◦ H(-):文脈化埋め込みの集合
• 従来の語義とターゲットの語義の類似度が高い場合にWSEと判定 ◦ 類似度の計算方法として二つ紹介 10
WSE-Prototype model and WSE-Exemplar model • WSE-Prototype model • WSE-Examplar
model 11 要はどこで平均をとるかの違い d(-,-)はドット積を表す
Learning sense-extensional semantic space • 言語モデルの埋め込み空間をWSE向けに変換したい • Chaining に対応するために、episode learning
algorithm を提案 ◦ episode ごとに mini-batch でソースとターゲットトークンのペアを獲得 ◦ ターゲットトークンに対して最も適切なソーストークンを選択 ◦ negative log likelihood を計算 12
Data • Dataset:Wikitext-103 [Merityet al., 2016] ◦ SpaCy を用いて文を抽出しレンマタイズ ◦
WSD を適用し、各トークンに関連する wordnet synset ID を意味ラベルとして付与 ◦ 多義語の語彙リストは下記の条件を満たすものの集合 ▪ 単語タイプがコーパス内で少なくとも 2つの異なる意味を持つ ▪ SpaCy により、名詞、動詞、形容詞、副詞と判断されたもの • 多義語の単語タイプを擬似トークンペアに分割 ◦ ソースとターゲットのペアに分割 ◦ n個の語義に対し、ランダムに一つを選択肢、他はソーストークンとして扱う 13
Setup • モデル:BERT-base-uncased ◦ パラメータの重みはランダムに初期化( 0から学習) ◦ 多義語を含む場合は置換し、擬似トークンを使用 ◦ BERT
埋め込み層と最終分類層を追加 • 学習方法 ◦ 多義語の70%を学習に ◦ 30%をテストに使う 14
Baseline models Chaining ベースの推論機構を持たないモデルをベースラインとする • BERT-MLM ◦ マスクされた文脈における t0 の確率
• BERT-STS ◦ t0 と t* でコサイン類似度 15
Evaluation on WSE (1/2) • WSE タスクの性能評価 ◦ WSE で学習させると性能が向上する
◦ WSE-Examplar が一番性能が良い 16
Evaluation on WSE (2/2) • 予測例 ◦ 動詞や名詞の場合を WSE モデルでは予測できている
◦ BERT-MLM は言い換えを予測する傾向 ◦ 強い非リテラルな意味拡張をする用例はどのモデルでも性能が低い 17
Sense relatedness and model predictability • 関連度の高い語義を知っていれば 新しい語義は容易に予測可能では? ◦ 答えは
YES ◦ WSE のモデルが人間の様な感度を 持つかどうかを検証 ◦ Wu-Palmer semantic distance ▪ t* と t0 の意味的距離 ◦ 距離が小さいメトニミーは予測できる ◦ 強いメタファーなどは困難 18
Application of WSE to WSD (1/3) • WSD のモデルに対して WSE
を学習したモデルを適応 ◦ 最先端の WSD モデルに対して WSE を追加で学習 [Blevinsand Zettlemoyer, 2020] ◦ 副詞を除いてほぼ全てのデータセットで性能向上を確認 19
Application of WSE to WSD (2/3) • 頻度ごとに分析 ◦ rare
word に対する性能が高くなっている ◦ BERT-linear だと高くなっていない気がするが … 20
Application of WSE to WSD (3/3) • 具体例 ◦ WSE
の有無で向上した例 ◦ 従来の意味と新しい意味の関係を捉えられている 21
Conclusion まとめ • WSE のタスク、フレームワークを提案 • Chaining をもとにした学習により、WSE の性能が向上 •
WSE の学習を追加することで WSD の(rare word に対する?)精度向上も確認 今後の展望 • より良い WSE モデルのためのフレームワークの拡張 • 時間や言語の違いを考慮したモデル化 22