Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介:A Multidimensional Framework for Evaluatin...
Search
Taichi Aida
September 16, 2024
Research
0
7
文献紹介:A Multidimensional Framework for Evaluating Lexical Semantic Change with Social Science Applications
https://aclanthology.org/2024.acl-long.76/
Taichi Aida
September 16, 2024
Tweet
Share
More Decks by Taichi Aida
See All by Taichi Aida
YANS2024:目指せ国際会議!「ネットワーキングの極意(国際会議編)」
a1da4
0
64
言語処理学会30周年記念事業留学支援交流会@YANS2024:「学生のための短期留学」
a1da4
1
190
新入生向けチュートリアル:文献のサーベイv2
a1da4
10
8k
文献紹介:Isotropic Representation Can Improve Zero-Shot Cross-Lingual Transfer on Multilingual Language Models
a1da4
0
98
文献紹介:WhitenedCSE: Whitening-based Contrastive Learning of Sentence Embeddings
a1da4
1
130
文献紹介:On the Transformation of Latent Space in Fine-Tuned NLP Models
a1da4
0
45
新入生向けチュートリアル:文献のサーベイ
a1da4
0
340
文献紹介:Temporal Attention for Language Models
a1da4
0
250
文献紹介:Dynamic Contextualized Word Embeddings
a1da4
2
330
Other Decks in Research
See All in Research
Online Nonstationary and Nonlinear Bandits with Recursive Weighted Gaussian Process
monochromegane
0
190
【ICASSP2024】音声変換に関する全論文まとめ【Parakeet株式会社】
supikiti
0
710
20240719_第2回熊本の交通を語る会
trafficbrain
0
390
SSII2024 [PD] 30周年記念特別企画SSII 技術マップ / LLMサーベイ
ssii
PRO
0
750
Language is primarily a tool for communication rather than thought
ryou0634
4
630
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
eumesy
PRO
6
1k
出生抑制策と少子化
morimasao16
0
400
Weekly AI Agents News! 8月号 プロダクト/ニュースのアーカイブ
masatoto
1
120
LINEチャットボット「全力肯定彼氏くん(LuC4)」の 1年を振り返る
o_ob
0
1.4k
自然言語とVision&Language
kuehara
20
5.1k
「並列化時代の乱数生成」
abap34
2
320
SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから
ssii
PRO
5
1.4k
Featured
See All Featured
How GitHub (no longer) Works
holman
310
140k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
225
22k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
166
48k
Typedesign – Prime Four
hannesfritz
39
2.3k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
36
1.7k
Statistics for Hackers
jakevdp
794
220k
Atom: Resistance is Futile
akmur
261
25k
Build your cross-platform service in a week with App Engine
jlugia
228
18k
Faster Mobile Websites
deanohume
304
30k
Designing for humans not robots
tammielis
248
25k
Being A Developer After 40
akosma
84
590k
In The Pink: A Labor of Love
frogandcode
139
22k
Transcript
論文紹介 A Multidimensional Framework for Evaluating Lexical Semantic Change with
Social Science Applications Naomi Baes, Nick Haslam, Ekaterina Vylomova ACL2024
概要 2 • 問題:意味変化の有無は算出できるが、種類は複雑 • 提案:単語の意味変化の種類を評価する3+2つの尺度 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ breadth:(意味的に)似ていない⇔似ている
◦ intensity:(感情的に)落ち着いている⇔緊張状態 ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦ [sub] salience:相対的な頻度情報 • 実験:心理学/社会学における分析で有用性を調査 ◦ 心理的に意味が変化した用語、そうでない単語を区別できた
• 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 背景:単語の意味変化 3
背景:単語の意味変化 4 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • 目的1:時代で意味が変わる単語を自動で検出したい!
◦ 時代の異なる文書(大抵2つ、19世紀vs20世紀など) ◦ 本タスクの難しい点:文書間で時間も意味も変わる!
背景:単語の意味変化 5 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • 目的1:時代で意味が変わる単語を自動で検出したい!
◦ 時代の異なる文書(大抵2つ、19世紀vs20世紀など) ◦ 本タスクの難しい点:文書間で時間も意味も変わる! ◦ 単語ベクトルを使用して検出 1. word2vec > BERT [Schlechtweg+20] 2. word2vec << 時間を考慮した BERT [Rosin+22] 3. 時間を考慮した BERT << 意味を考慮した XLM-R [Cassotti+23] < 意味を考慮した XLM-R + 意味を考慮した距離関数 [Aida+24] ◦ ある程度できるようになった👍(人手相関が 0.6 → 0.8)
背景:単語の意味変化 6 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ 本タスクの難しい点: ◦ 意味変化の種類をどのように定義するか? ◦ 定義した意味変化の種類をどのように予測・評価するか? 技術革新 技術革新 比喩的な拡張
背景:単語の意味変化 7 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ wordnet を使って 発生/統合/分離/死滅 を評価 [Mitra+14] ◦ 7種類の(意味)変化を擬似的に再現 [Shoemark+19] ◦ 文単位で 一般化/特殊化/比喩 を予測 [Cassotti+24] ◦ まだまだ難しい…🧐 技術革新 技術革新 比喩的な拡張
提案:意味変化を評価する尺度 • ✅目的1:時代で意味が変わる単語を自動で検出したい! • 🎯目的2:意味の変わり方について、種類を知りたい! • 提案:複数次元での評価尺度で意味変化を区別 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦
breadth:(意味的に)似ていない⇔似ている ◦ intensity:(感情的に)落ち着いている⇔緊張状態 8
提案:意味変化を評価する尺度 • ✅目的1:時代で意味が変わる単語を自動で検出したい! • 🎯目的2:意味の変わり方について、種類を知りたい! • 提案:複数次元での評価尺度で意味変化を区別 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦
breadth:(意味的に)似ていない⇔似ている ◦ intensity:(感情的に)落ち着いている⇔緊張状態 • 🎯先行研究と比べてここがすごい!: ◦ ニューラルの分類器 [Cassotti+24] とは 異なり、直交する複数の要素で評価 →説明性◎(各要素から種類を説明できる?) ◦ 事前に種類を定義 [Mitra+14] せず、 種類を区別するための指標を提案 →応用性◎(未知の種類にも対応可能?) 9
• 提案:複数次元での評価尺度で意味変化を区別 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ 9段階でラベルづけされた辞書を使用 ◦ 対象単語と共起した単語について、感情ラベルの平均値を算出 ◦ 今回:前後5単語で共起する、辞書に含まれている単語を使用
◦ 教師情報が必要 ◦ breadth:(意味的に)似ていない⇔似ている ◦ average pairwise cosine distance を使用 ◦ 教師情報なしでOK ◦ intensity:(感情的に)落ち着いている⇔緊張状態 ◦ 9段階でラベルづけされた辞書を使用 ◦ sentiment と同様の算出 ◦ 教師情報が必要 提案:意味変化を評価する尺度 10
• 提案:複数次元での評価尺度で意味変化を区別 ◦ 補助的な軸も2つ提案 →社会的な要因、特定の分野の変化はこれでわかるかも? ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦
今回:分野は心理学/社会学、前後5単語以内にあるかどうか ◦ 教師情報が必要 ◦ [sub] salience:相対的な頻度情報 ◦ 教師情報なしでOK 提案:意味変化を評価する尺度 11
実験 • 心理学/社会学の分野の用語を使用 ◦ 危害に関する用語が意味的に拡張する(concept creep) ◦ 例)trauma:外傷→心理的 • 調査:「心理的な用語の変化(concept
creep)」と 「それ以外」を区別できるか? ◦ 心理的・より広義になった単語:“mental health” ◦ 心理的・より専門的な意味になった単語:“mental illness” ◦ 中立的な単語:“perceptron” 12
結果:主要な3つの軸で調査 • sentiment 軸:心理的な単語は減少(=ネガティブ) • breadth 軸:どの単語も緩やかに増加(=意味の拡張) 13 illness はより
専門的になった はずでは…?🧐
結果:主要な3つの軸で調査 • intensity 軸:心理的な単語は変動が激しく(左)、 大幅に増加傾向にある(らしい)(右) 14
結果:補助的な2つの軸で調査 15 health < illness →さらに 専門的に なった • thematic
concept 軸:心理的な単語は有意に共起する • salience 軸:(心理的な文書で)mental health が急増
結果:複数軸での評価でわかること 16 • 通常の単語(perception)と比較して、 心理的な単語(mental health, mental illness)は…? • sentiment,
intensity 軸: ◦ 通常のコーパスだとポジティブ・落ち着いた状態に移行するが、 ◦ 心理的なコーパスだとネガティブ・緊張状態に移行 • breadth 軸: ◦ 通常のコーパスだと意味が近いようにみえるが、 ◦ 心理的なコーパスだと意味の幅が広い • [sub] thematic concept, salience 軸: ◦ 指定した分野の用語と有意に共起 ◦ mental illness の頻度はほぼ一定だが、mental health の頻度は 急増する(→関心の高まり?)
まとめ 17 • 問題:意味変化の有無は算出できるが、種類は複雑 • 提案:単語の意味変化の種類を評価する3+2つの尺度 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ breadth:(意味的に)似ていない⇔似ている
◦ intensity:(感情的に)落ち着いている⇔緊張状態 ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦ [sub] salience:相対的な頻度情報 • 実験:心理学/社会学における分析で有用性を調査 ◦ 心理的に意味が変化した用語、そうでない単語を区別できた
まとめ • 問題:意味変化の有無は算出できるが、種類は複雑 • 提案:単語の意味変化の種類を評価する3+2つの尺度 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ breadth:(意味的に)似ていない⇔似ている ◦
intensity:(感情的に)落ち着いている⇔緊張状態 ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦ [sub] salience:相対的な頻度情報 →これらの要素は本当に直交しているのか?必要十分か? • 実験:心理学/社会学における分析で有用性を調査 ◦ 心理的に意味が変化した用語、そうでない単語を区別できた →各要素を教師情報なしで算出するにはどうしたらいいか? (参考:感情分析+意味変化 [Goworek+24]) ◦ とはいえ、難しい課題を簡潔に評価する試みはとても良い! 18