Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介:Unsupervised Word Polysemy Quantification ...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Taichi Aida
July 23, 2021
Research
0
120
文献紹介:Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings
Taichi Aida
July 23, 2021
Tweet
Share
More Decks by Taichi Aida
See All by Taichi Aida
意味を表すベクトル表現を用いたテキスト分析
a1da4
0
95
PhD Defence: Considering Temporal and Contextual Information for Lexical Semantic Change Detection
a1da4
1
260
文献紹介:A Multidimensional Framework for Evaluating Lexical Semantic Change with Social Science Applications
a1da4
1
370
YANS2024:目指せ国際会議!「ネットワーキングの極意(国際会議編)」
a1da4
0
290
言語処理学会30周年記念事業留学支援交流会@YANS2024:「学生のための短期留学」
a1da4
1
410
新入生向けチュートリアル:文献のサーベイv2
a1da4
16
11k
文献紹介:Isotropic Representation Can Improve Zero-Shot Cross-Lingual Transfer on Multilingual Language Models
a1da4
0
210
文献紹介:WhitenedCSE: Whitening-based Contrastive Learning of Sentence Embeddings
a1da4
1
350
文献紹介:On the Transformation of Latent Space in Fine-Tuned NLP Models
a1da4
0
120
Other Decks in Research
See All in Research
OWASP KansaiDAY 2025.09_文系OSINTハンズオン
owaspkansai
0
110
LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection
satai
3
460
湯村研究室の紹介2025 / yumulab2025
yumulab
0
300
ドメイン知識がない領域での自然言語処理の始め方
hargon24
1
240
生成的情報検索時代におけるAI利用と認知バイアス
trycycle
PRO
0
280
説明可能な機械学習と数理最適化
kelicht
2
920
ACL読み会2025: Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
120
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.1k
超高速データサイエンス
matsui_528
2
380
離散凸解析に基づく予測付き離散最適化手法 (IBIS '25)
taihei_oki
PRO
1
680
AWSの耐久性のあるRedis互換KVSのMemoryDBについての論文を読んでみた
bootjp
1
460
ウェブ・ソーシャルメディア論文読み会 第36回: The Stepwise Deception: Simulating the Evolution from True News to Fake News with LLM Agents (EMNLP, 2025)
hkefka385
0
150
Featured
See All Featured
Git: the NoSQL Database
bkeepers
PRO
432
66k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2k
Site-Speed That Sticks
csswizardry
13
1.1k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.6k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.1k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
240
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
340
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
180
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
430
So, you think you're a good person
axbom
PRO
2
1.9k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
310
Transcript
Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings
Christos Xypolopoulos, Antoine Tixier, Michalis Vazirgiannis EACL2021 論文紹介
導入 - 単語の多義語の度合いを予測する手法を提案 - 単語の順位付けタスクで6種類の評価指標におい て6種類の人手セットとの相関を示した 2
手法 - 仮定:文脈あり単語ベクトルが空間を占める大き さは多義語の度合いを示す - 手法: 1. D次元に圧縮して格子状に線を引く 2. 単語ごとに格子を占める比率を計算
3. 多義語の度合いを示すスコアを計算 3 多義語の度合い word 1 > word 2
手法 1. D次元に圧縮し、格子状に線を引く 4
手法 2. 単語ごとに格子を占める比率を計算 5 word 1, l = 1 の場合:
手法 2. 単語ごとに格子を占める比率を計算 6 word 1, l = 2 の場合:
word 1, l = 3 の場合:
手法 3. 多義語の度合いを示すスコアを計算 7 格子が粗くなるほどペナルティを与える
実験:多義語の度合いの順位付け - タスク:対象単語について多義語の度合いをラン キング - データ:English Wikipedia dump - 評価対象の単語選択
- English Wikipedia で頻度の高い上位2000単語を選択 - 3000文以上ある単語(2000→1822単語)を残す 8
実験:多義語の度合いの順位付け - 比較手法(Ground Truth) - WordNet:synset 数を多義語の度合いとする - WordNet-Reduced:WordNet の
synset 数を少なくした もの。synset 数を多義語の度合いとする - WordNet-Domains:WordNet に自動でドメインのラベル を割り振ったもの。ドメイン数が多義語の度合い 9
実験:多義語の度合いの順位付け - 比較手法(Ground Truth) - OntoNotes:様々なメディアのデータから構築。WordNet をまとめた inventory 数が多義語の度合い -
Oxford:Oxford Dictionary にある意味の数を数える - Wikipedia:「曖昧さ回避」にあるカテゴリの数を多義語の 度合いとした - 比較手法(Baseline) - frequency:高頻度ほど多義語 - random:対数正規分布に従いランダムに並べ替える 10
実験:多義語の度合いの順位付け - 提案手法 - 事前訓練済み ELMo の最終層から単語ベクトルを獲得 - D:PCA でベクトルの次元を圧縮(1024→2~20)
- 格子の線の数 L:2~19 11
実験:多義語の度合いの順位付け - 評価指標:6種類の指標で評価 - cosine similarity - Spearman’s rho -
Kendall’s tau - precision@k - Normalized Discounted Gain (NDCG): - Rank Biased Overlap (RBO): 12
結果:多義語の度合いの順位付け - Ground Truth(cos, NDCG は特に Wiki)との相 関が高く、2つの baseline も超えている
- その他の指標で評価した場合も同様 13
議論:パラメータ(縦軸:線の数 L, 横軸: 圧縮後の次元 D) - D=2~4, L=3,4~8 くらいで良い性能になる 14
線の数 L 圧縮後の次元 D
応用:異なる語義の抽出 - 同じ単語でも異なる格子のマスから取り出せば、 異なる語義の文を抽出できる - count:固有名詞, 番号, 数え上げ - live:住む,
ライブ - bank:銀行, 土手 15
結論 - 圧縮したベクトル空間に線を引いて、格子を占め る比率から単語の多義語の度合いを計算 - 単語の順位づけタスクで人手との相関を示す (クラスタリングと比較して欲しい) 16
手法:アイデア - 画像処理における pyramid matching と同じ 17 Beyond Bags of
Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories. (Lazebnik+2006)
vs. クラスタリング - 文脈あり単語ベクトルも一様ではない - クラスタリングは空間に対して均等に分割をせず (密度ベース)、外れ値のクラスタも - クラスタ数=多義語の度合い は信頼できない
18 How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings (Ethayarajh2019)
実験:多義語の度合いの順位付け - 対象の1822単語のうち、Ground Truth で使えた 単語数 19
議論:単語の語義ごとに 意味の近い単語を抽出 - 単語の各語義が所属するマスの中で高頻度の単 語を取り出す - metal:鉱物, オリンピック, 音楽 20