Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Dependency-based empty category detection via ...
Search
takegue
June 22, 2015
Technology
0
75
Dependency-based empty category detection via phrase structure trees
文献紹介 Dependency-based empty category detection via phrase structure trees
takegue
June 22, 2015
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
840
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.3k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1k
Rettyにおけるデータ活用について
takegue
0
880
Sparse Overcomplete Word Vector Representations
takegue
0
200
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
210
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
A simple pattern-matching algorithm for recovering empty nodes and their antecedents
takegue
0
120
Other Decks in Technology
See All in Technology
コード品質向上で得られる効果と実践的取り組み
ham0215
2
200
モンテカルロ木探索のパフォーマンスを予測する Kaggleコンペ解説 〜生成AIによる未知のゲーム生成〜
rist
4
1.1k
Engineering Managementのグローバルトレンド #emoasis / Engineering Management Global Trend
kyonmm
PRO
6
980
お問い合わせ対応の改善取り組みとその進め方
masartz
1
350
空が堕ち、大地が割れ、海が涸れた日~もしも愛用しているフレームワークが開発停止したら?~ #phperkaigi 2025
77web
2
1k
チームの性質によって変わる ADR との向き合い方と、生成 AI 時代のこれから / How to deal with ADR depends on the characteristics of the team
mh4gf
4
330
AWS のポリシー言語 Cedar を活用した高速かつスケーラブルな認可技術の探求 #phperkaigi / PHPerKaigi 2025
ytaka23
7
1.5k
ルートユーザーの活用と管理を徹底的に深掘る
yuobayashi
6
720
モノリスの認知負荷に立ち向かう、コードの所有者という思想と現実
kzkmaeda
0
110
Riverpod & Riverpod Generatorを利用して状態管理部分の処理を書き換えてみる簡単な事例紹介
fumiyasac0921
0
100
問題解決に役立つ数理工学
recruitengineers
PRO
7
1.8k
Restarting_SRE_Road_to_SRENext_.pdf
_awache
0
160
Featured
See All Featured
A designer walks into a library…
pauljervisheath
205
24k
Fireside Chat
paigeccino
37
3.3k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
7
610
4 Signs Your Business is Dying
shpigford
183
22k
The Pragmatic Product Professional
lauravandoore
33
6.5k
Large-scale JavaScript Application Architecture
addyosmani
511
110k
Gamification - CAS2011
davidbonilla
81
5.2k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.4k
Typedesign – Prime Four
hannesfritz
41
2.6k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Building Your Own Lightsaber
phodgson
104
6.3k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
Transcript
文献紹介: Dependency-based empty category detection via phrase structure trees 長岡技術科学大学
自然言語処理研究室 竹野 峻輔
概要 Chinese Treebank における 空範疇検出. 係り受け構造 におけるモデル化 - 出力は係り受け構造 素性抽出は句構造から
という特殊なモデル - 言語学的性質に着目した素性群の提案 Nianwen Xue and Yaqin Yang. 2013. Dependency-based empty category detection via phrase structure trees. In Proceedings of NAACL-HLT 2013, pages 1051–1060. .
導入 • なぜ空範疇検出に取り組むのか? – pro-drop language では 頻繁に空範疇が出現する – 空範疇
∋ ゼロ代名詞, NP痕跡, 関係代名詞の省略 … – 参照解決の問題. (文脈を機械的に理解するため) – 機械翻訳 では 大きな問題 • Word alignment の精度の改善(Xiang, 2013) • 空範疇を適切に埋めてやることでBLEUが大幅に向上 (Xian et al. 2013, Chung and Gildea 2010)
モデル 主辞hと隣接する単語t の (渉及, 的) → *OP* 組み合わせ (h, t)に対する空範疇の分類問題.
- 複数の空範疇が連続する場合にも対応できる - 主辞 と 空範疇の関係 が 明示的になる 主辞単位で評価できるので 簡潔で明確
モデル • 係り受け 構造に対して分類(上) • 素性抽出は句構造(再パースしたもの)から抽出(下)
素性抽出:overviews • 言語学的な性質に着目した素性群6種 – Horizonal features – Vertical features –
Targeted grammatical constructions – Head information – Transitivity features – Semantic role features
素性抽出:ablation test
素性抽出:Horizonal features • 主辞hや空範疇の隣接の単語p, t 前後関係を抽出したもの – 主辞h, 空範疇の隣接の単語p, tの
表層系およびPOS label – 上記ラベルの組み合わせ素性 – 主辞と空範疇の隣接の単語の距離 same, immediately before/after, near before/after, other – h ~ t までの間にある動詞の数 – h ~ t までの間にあるカンマの数
素性抽出:Vertical features • 主辞h や 空範疇の隣接の単語p, t の構造的な特 徴に着目した素性 –
t から p と t の共通の親 Aまでのパス – h ~ t までのパス – p と t の共通の親 A から hまでのパス
素性抽出:Targetd grammatical construction • 言語学的構造(IP node) に 着目した 特徴 –
隣接の単語t が IPの始まりに位置するか? – 隣接の単語t が 主語の無いIPの始まりに位置するか? – tが左端にある 親IPの 左兄弟/右兄弟のラベル – tが左端にある親IPのgovernning-verbの 表層系 – tが左端にある親IPはlocalizer phraseの補語になるか? – tが左端に有る親IPは主格の役割を持っているか?
素性抽出:Head information • 複数の述語が 一つの空範疇を共有する時の 構造情報を 捉えるための特徴 – 係り受け構造では ECに対し
head はひとつのみ – IP中に VPが複数あるような構造を対象とした素性 – 動詞が head になりうるか否かを表す2値 • 再パース 際の誤り も意識している • おそらく RNR(右枝節繰り上がり)の検出に効果的
素性抽出:ablation test
実験 CTBの空範疇の種類 • pro : small pro(ゼロ代名詞) • PRO: big
pro (主語代名詞. 文中に参照を持つ) • OP : 関係代名詞の省略を表す空範疇 • T : NP痕跡. 名詞句の移動を表す空範疇 • RNR: 右枝接点繰り上げ 構文を表す • * : 受動態や繰り上げの痕跡を表す • ? : 不明. その他の空範疇
実験-データセット • CTB v6.0
実験-結果
結論 • 係り受け構造に対する空範疇検出モデルの提案 – ECが複数有る場合にも対応できる(再現率の改善) – 言語学的性質に着目することで (Cai et al.
2011) のモデルより 大きく改善 +7.4ポイント – pro に 対する性能はかなり低い • cf. (Wang et al. 2015) では 大きく 改善されている