Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介 / A Probabilistic Annotation Model for Cro...
Search
Atom
February 03, 2020
0
54
文献紹介 / A Probabilistic Annotation Model for Crowdsourcing Coreference
Atom
February 03, 2020
Tweet
Share
More Decks by Atom
See All by Atom
文献紹介 / Structure-based Knowledge Tracing: An Influence Propagation View
roraidolaurent
0
76
文献紹介 / Knowledge Tracing with GNN
roraidolaurent
0
76
文献紹介 / Non-Intrusive Parametric Reduced Order Models withHigh-Dimensional Inputs via Gradient-Free Active Subspace
roraidolaurent
0
45
ニューラルネットワークのベイズ推論 / Bayesian inference of neural networks
roraidolaurent
1
2.7k
Graph Convolutional Networks
roraidolaurent
0
210
文献紹介Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time
roraidolaurent
0
87
文献紹介/ Bayesian Learning for Neural Dependency Parsing
roraidolaurent
0
90
ポッキー数列の加法定理 / Pocky number additon theorem
roraidolaurent
0
190
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling
roraidolaurent
1
120
Featured
See All Featured
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Mobile First: as difficult as doing things right
swwweet
222
9k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.3k
Designing on Purpose - Digital PM Summit 2013
jponch
116
7k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
111
49k
Testing 201, or: Great Expectations
jmmastey
40
7.1k
Navigating Team Friction
lara
183
15k
Transcript
A Probabilistic Annotation Model for Crowdsourcing Coreference 文献紹介 2020/2/3 長岡技術科学大学
自然言語処理研究室 吉澤 亜斗武
Abstract ・クラウドソーシングで注釈がつけられた共参照の データセットのためのモデルを提案 ・質の異なるアノテーターをシュミレーションして データを生成 ・提案モデルはアノテーターの質を考慮し、 従来のモデルのF1値を上回った。 2
1. Introduction ・共参照の問題は談話エンティティなどで非常に重要 ・現在、ONTONOTESを基とした中規模データセット CONLL2012-dataset を使うのがほとんど ・しかし適用できない言語やドメインが多くあり、アノテート されたデータセットが求められるが、専門家だけでは データサイズに限界がある 3
1. Introduction ・そこでクラウドソーシングが求められるが、照応の集約が 上手く行かないことが多い。 ・従来は単純な多数決がとられてきたが、近年になって効率的な 集約方法への研究が行われつつある。 ・クラウドソースの照応注釈を集約する言及ペアベースの 確率モデルを提案 4
2. A Mention-Pair Model of Annotation 5
2.1 Parameter Estimation 6 ELBO最大化:Coordinate AscentVariational Inference (CAVI)
3.1.1 Crowdsourced Data 7 Phrase Detectives 1.0 ・クラウドソーシングでアノテーション ・談話の新・旧(先行詞)など5つのマーク ・45文書、6000マーク
→トレーニングに向かかない → CONLL-2012 dataset からデータを作る
3.1.2 Synthetic Data 8 アノテーターをシミュレーションとして訓練データを生成 精度が0.2から0.9のアノテーターが混在するようにする ・Uniform:一様に誤りを生じさせる。 ・Sparse:局所的に誤りを生じさせる。
3.1.2 Synthetic Data 9 ・Synthetic profiles 5つの精度が異なるプロファイル(ラベル)をつける 専門家と一般の人が混ざっている状況を再現 ・Phrase Detectives
inspired profiles Phrase Detectiveの中で信頼度が一定以上のプロファイルを 適用。
3.2 Evaluation 1: Mention Pair Accuracy 10
3.3 Evaluation 2: Silver Chain Quality 11
6 Conclusion 12 ・クラウドソーシングされた照応注釈を集約するための 確率モデルベースを導入し、推定ペア、 相互参照チェーンの品質について実験をおこなった。 ・多数決で決める従来のモデルよりも優れていることを 示した。