Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Dependency-based empty category detection via ...
Search
takegue
June 22, 2015
Technology
0
70
Dependency-based empty category detection via phrase structure trees
文献紹介 Dependency-based empty category detection via phrase structure trees
takegue
June 22, 2015
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
820
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.3k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1k
Rettyにおけるデータ活用について
takegue
0
870
Sparse Overcomplete Word Vector Representations
takegue
0
200
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
200
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
A simple pattern-matching algorithm for recovering empty nodes and their antecedents
takegue
0
110
Other Decks in Technology
See All in Technology
Unsafe.BitCast のすゝめ。
nenonaninu
0
200
EMConf JP の楽しみ方 / How to enjoy EMConf JP
pauli
2
150
WantedlyでのKotlin Multiplatformの導入と課題 / Kotlin Multiplatform Implementation and Challenges at Wantedly
kubode
0
250
JAWS-UG20250116_iOSアプリエンジニアがAWSreInventに行ってきた(真面目編)
totokit4
0
140
Oracle Base Database Service:サービス概要のご紹介
oracle4engineer
PRO
1
16k
Azureの開発で辛いところ
re3turn
0
240
深層学習と3Dキャプチャ・3Dモデル生成(土木学会応用力学委員会 応用数理・AIセミナー)
pfn
PRO
0
460
ゼロからわかる!!AWSの構成図を書いてみようワークショップ 問題&解答解説 #デッカイギ #羽田デッカイギおつ
_mossann_t
0
1.5k
実践! ソフトウェアエンジニアリングの価値の計測 ── Effort、Output、Outcome、Impact
nomuson
0
2.1k
re:Invent 2024のふりかえり
beli68
0
110
エンジニアリングマネージャー視点での、自律的なスケーリングを実現するFASTという選択肢 / RSGT2025
yoshikiiida
4
3.7k
メールヘッダーを見てみよう
hinono
0
110
Featured
See All Featured
No one is an island. Learnings from fostering a developers community.
thoeni
19
3.1k
Adopting Sorbet at Scale
ufuk
74
9.2k
A better future with KSS
kneath
238
17k
Building an army of robots
kneath
302
45k
How to Ace a Technical Interview
jacobian
276
23k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.3k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
Fashionably flexible responsive web design (full day workshop)
malarkey
406
66k
Building Your Own Lightsaber
phodgson
104
6.2k
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.5k
Transcript
文献紹介: Dependency-based empty category detection via phrase structure trees 長岡技術科学大学
自然言語処理研究室 竹野 峻輔
概要 Chinese Treebank における 空範疇検出. 係り受け構造 におけるモデル化 - 出力は係り受け構造 素性抽出は句構造から
という特殊なモデル - 言語学的性質に着目した素性群の提案 Nianwen Xue and Yaqin Yang. 2013. Dependency-based empty category detection via phrase structure trees. In Proceedings of NAACL-HLT 2013, pages 1051–1060. .
導入 • なぜ空範疇検出に取り組むのか? – pro-drop language では 頻繁に空範疇が出現する – 空範疇
∋ ゼロ代名詞, NP痕跡, 関係代名詞の省略 … – 参照解決の問題. (文脈を機械的に理解するため) – 機械翻訳 では 大きな問題 • Word alignment の精度の改善(Xiang, 2013) • 空範疇を適切に埋めてやることでBLEUが大幅に向上 (Xian et al. 2013, Chung and Gildea 2010)
モデル 主辞hと隣接する単語t の (渉及, 的) → *OP* 組み合わせ (h, t)に対する空範疇の分類問題.
- 複数の空範疇が連続する場合にも対応できる - 主辞 と 空範疇の関係 が 明示的になる 主辞単位で評価できるので 簡潔で明確
モデル • 係り受け 構造に対して分類(上) • 素性抽出は句構造(再パースしたもの)から抽出(下)
素性抽出:overviews • 言語学的な性質に着目した素性群6種 – Horizonal features – Vertical features –
Targeted grammatical constructions – Head information – Transitivity features – Semantic role features
素性抽出:ablation test
素性抽出:Horizonal features • 主辞hや空範疇の隣接の単語p, t 前後関係を抽出したもの – 主辞h, 空範疇の隣接の単語p, tの
表層系およびPOS label – 上記ラベルの組み合わせ素性 – 主辞と空範疇の隣接の単語の距離 same, immediately before/after, near before/after, other – h ~ t までの間にある動詞の数 – h ~ t までの間にあるカンマの数
素性抽出:Vertical features • 主辞h や 空範疇の隣接の単語p, t の構造的な特 徴に着目した素性 –
t から p と t の共通の親 Aまでのパス – h ~ t までのパス – p と t の共通の親 A から hまでのパス
素性抽出:Targetd grammatical construction • 言語学的構造(IP node) に 着目した 特徴 –
隣接の単語t が IPの始まりに位置するか? – 隣接の単語t が 主語の無いIPの始まりに位置するか? – tが左端にある 親IPの 左兄弟/右兄弟のラベル – tが左端にある親IPのgovernning-verbの 表層系 – tが左端にある親IPはlocalizer phraseの補語になるか? – tが左端に有る親IPは主格の役割を持っているか?
素性抽出:Head information • 複数の述語が 一つの空範疇を共有する時の 構造情報を 捉えるための特徴 – 係り受け構造では ECに対し
head はひとつのみ – IP中に VPが複数あるような構造を対象とした素性 – 動詞が head になりうるか否かを表す2値 • 再パース 際の誤り も意識している • おそらく RNR(右枝節繰り上がり)の検出に効果的
素性抽出:ablation test
実験 CTBの空範疇の種類 • pro : small pro(ゼロ代名詞) • PRO: big
pro (主語代名詞. 文中に参照を持つ) • OP : 関係代名詞の省略を表す空範疇 • T : NP痕跡. 名詞句の移動を表す空範疇 • RNR: 右枝接点繰り上げ 構文を表す • * : 受動態や繰り上げの痕跡を表す • ? : 不明. その他の空範疇
実験-データセット • CTB v6.0
実験-結果
結論 • 係り受け構造に対する空範疇検出モデルの提案 – ECが複数有る場合にも対応できる(再現率の改善) – 言語学的性質に着目することで (Cai et al.
2011) のモデルより 大きく改善 +7.4ポイント – pro に 対する性能はかなり低い • cf. (Wang et al. 2015) では 大きく 改善されている