Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Extraction of hypernyms and hyponyms
Search
Atom
March 28, 2019
0
90
Extraction of hypernyms and hyponyms
Atom
March 28, 2019
Tweet
Share
More Decks by Atom
See All by Atom
文献紹介 / Structure-based Knowledge Tracing: An Influence Propagation View
roraidolaurent
0
76
文献紹介 / Knowledge Tracing with GNN
roraidolaurent
0
76
文献紹介 / Non-Intrusive Parametric Reduced Order Models withHigh-Dimensional Inputs via Gradient-Free Active Subspace
roraidolaurent
0
45
ニューラルネットワークのベイズ推論 / Bayesian inference of neural networks
roraidolaurent
1
2.7k
Graph Convolutional Networks
roraidolaurent
0
200
文献紹介 / A Probabilistic Annotation Model for Crowdsourcing Coreference
roraidolaurent
0
54
文献紹介Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time
roraidolaurent
0
83
文献紹介/ Bayesian Learning for Neural Dependency Parsing
roraidolaurent
0
88
ポッキー数列の加法定理 / Pocky number additon theorem
roraidolaurent
0
190
Featured
See All Featured
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
364
24k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
We Have a Design System, Now What?
morganepeng
50
7.2k
How to train your dragon (web standard)
notwaldorf
88
5.7k
Site-Speed That Sticks
csswizardry
0
28
Making the Leap to Tech Lead
cromwellryan
133
8.9k
Why Our Code Smells
bkeepers
PRO
334
57k
Intergalactic Javascript Robots from Outer Space
tanoku
269
27k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
Transcript
上位語・下位語の抽出 定型表現を利用した特許文書からのシソーラスの自動構築の実装 第11回 B3勉強会 2019/3/28 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武
参考文献・資料 [1] 安藤まや,関根聡,石崎俊: 定型表現を利用した新聞記事からの下位概念単語の自動抽出, 情報処理学会研究報告自然言語処理,NL-157, pp.77-82, 2003. [2] 難波英嗣,奥村学,新森昭宏,谷川英和,鈴木泰山: 特許データベースからのシソーラスの自動構築,言語処理学会,
年次大会発表論文集, pp.1113-1116, 2007. [3] 間弓沙織,難波英嗣,竹澤寿幸: 日英特許データベースからのシソーラスの自動構築,言語処理学会, 年次大会発表論文集,A4-2, 2011. [4] 平松淳,若林啓:系列ラベリングによる自然言語文からの上位下位関係自動 抽出,言語処理学会,年次大会発表論文集,P11‐1, 2017. 2
Contents (1) はじめに (2) シソーラス自動構築の手法 (3) 概念対の分類方法 (4) 実験結果 (5)
考察 (6) まとめ 3
(1) はじめに ・シソーラス(thesaurus) 意味の上位下位関係,同義関係を中心に語を体系的にまとめた 辞書 ・今回は講義の課題で作った,特許文書からの上位下位関係にお けるシソーラスの自動構築を紹介. 4
(1) はじめに ・安藤,関根ら[1]が「などの」「等の」「といった」「のよう な」の4種類の定型表現(手がかり語)に着目し,新聞記事か ら下位概念の自動抽出を行った. ・難波,奥村ら[2]は, 「といった」「のような」ではノイズ (不適切な概念対)が多く,件数も少ないので, 「などの」 「等の」だけノイズを分析,改良案を提案
5
(1) はじめに ・系列ラベリングを用いた方法では,教師データに依存すること が懸念される. ・今回は,「などの」「等の」「のような」「としては」を 手がかり語としてシソーラスを構築し,ノイズを分析した. 6
(2) シソーラスの自動構築の方法 7 ・一文ごとに読み込み,手がかり語があれば,前半部と後半部に 文を分割し,形態素解析を行う. ・手がかり語の前後が名詞であれば抽出する. ・名詞の前に形容詞があったら飛ばして次の名詞を抽出. ・下位概念の抽出において,「や」「、」などを挟んで名詞が 連続する場合は,その名詞も抽出する.
(2) シソーラスの自動構築の方法 8 ・「としては」は後半部を下位概念として抽出する. ・「次のような」といったものは抽出を行わない. ・後半部で上位概念の抽出を行う際,抽出した名詞1が, 名詞1+「の」+名詞2 の形で名詞2を修飾し,上位概念が 名詞2である場合が見られた. ・本実験では,名詞1+
「の」+名詞2の形の場合,名詞2を 上位概念として抽出した.
(2) シソーラスの自動構築の方法 9
(3) 概念対の分類方法 10
(4) 実験結果 11 ・1999年の特許文書,999件に適用した. ・得られた概念対の総数から手がかり語ごとに100個の概念対を ランダムに抽出し,人手で正解率及び,ノイズを種類別に 分類した. ・得られた概念対の総数は,「などの」では2890個,「等の」 では5831個,「のような」では1135個,「としては」では 3865個であった.
(4) 実験結果 12
(5) 考察 13 ・「などの」「等の」ではF1が多く,元の文が上位下位関係を 表す文であれば,比較的に抽出を適切に行うことができる. ・これを判定する方法として難波,奥村ら[2]は「などの」の個所を 「の」に置き換えた表現が日本語として自然であるかどうかにより, 判別する方法がある.しかし,この手法では,上位下位関係を 表す文も誤って削除することが多くあるなどの課題が残っている.
(5) 考察 14 ・「のような」では後半部で上位概念の抽出を,「としては」 では後半部で下位概念の抽出を行っており,後半部での概念の 抽出が今後の課題である. ・「のような」では,名詞1+ 「の」+名詞2 で名詞2を 上位概念としていたので,名詞1が「種々」「任意」などでは
ないなら名詞1を上位概念とするなどの改善案が考えられる.
(6) まとめ 15 ・「などの」「等の」「のような」「としては」の4種類の 手がかり語に着目し,特許文書から上位下位関係を表すシソー ラスを構築した. ・「などの」「等の」では約40%,「のような」「としては」 では約30%の精度で抽出できた. ・手がかり語ごとに別の改善方法を適用するべきであることが わかった.