Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Dependency-based empty category detection via ...
Search
takegue
June 22, 2015
Technology
0
76
Dependency-based empty category detection via phrase structure trees
文献紹介 Dependency-based empty category detection via phrase structure trees
takegue
June 22, 2015
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
840
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.3k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1k
Rettyにおけるデータ活用について
takegue
0
880
Sparse Overcomplete Word Vector Representations
takegue
0
210
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
210
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
A simple pattern-matching algorithm for recovering empty nodes and their antecedents
takegue
0
120
Other Decks in Technology
See All in Technology
クラウド開発環境Cloud Workstationsの紹介
yunosukey
0
130
IVRyにおけるNLP活用と NLP2025の関連論文紹介
keisukeosone
0
190
改めて学ぶ Trait の使い方 / phpcon odawara 2025
meihei3
1
660
サーバレス、コンテナ、データベース特化型機能をご紹介。CloudWatch をもっと使いこなそう!
o11yfes2023
0
160
Cross Data Platforms Meetup LT 20250422
tarotaro0129
1
410
Spring Bootで実装とインフラをこれでもかと分離するための試み
shintanimoto
7
800
MCPを活用した検索システムの作り方/How to implement search systems with MCP #catalks
quiver
11
6.4k
バックオフィス向け toB SaaS バクラクにおけるレコメンド技術活用 / recommender-systems-in-layerx-bakuraku
yuya4
5
530
CBになったのでEKSのこともっと知ってもらいたい!
daitak
1
160
食べログが挑む!飲食店ネット予約システムで自動テスト無双して手動テストゼロを実現する戦略
hagevvashi
3
420
Road to Go Gem #rubykaigi
sue445
0
400
Porting PicoRuby to Another Microcontroller: ESP32
yuuu
3
400
Featured
See All Featured
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
5
520
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.5k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
21k
Automating Front-end Workflow
addyosmani
1369
200k
Docker and Python
trallard
44
3.3k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
Six Lessons from altMBA
skipperchong
27
3.7k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Designing Experiences People Love
moore
141
24k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
119
51k
GraphQLの誤解/rethinking-graphql
sonatard
71
10k
Transcript
文献紹介: Dependency-based empty category detection via phrase structure trees 長岡技術科学大学
自然言語処理研究室 竹野 峻輔
概要 Chinese Treebank における 空範疇検出. 係り受け構造 におけるモデル化 - 出力は係り受け構造 素性抽出は句構造から
という特殊なモデル - 言語学的性質に着目した素性群の提案 Nianwen Xue and Yaqin Yang. 2013. Dependency-based empty category detection via phrase structure trees. In Proceedings of NAACL-HLT 2013, pages 1051–1060. .
導入 • なぜ空範疇検出に取り組むのか? – pro-drop language では 頻繁に空範疇が出現する – 空範疇
∋ ゼロ代名詞, NP痕跡, 関係代名詞の省略 … – 参照解決の問題. (文脈を機械的に理解するため) – 機械翻訳 では 大きな問題 • Word alignment の精度の改善(Xiang, 2013) • 空範疇を適切に埋めてやることでBLEUが大幅に向上 (Xian et al. 2013, Chung and Gildea 2010)
モデル 主辞hと隣接する単語t の (渉及, 的) → *OP* 組み合わせ (h, t)に対する空範疇の分類問題.
- 複数の空範疇が連続する場合にも対応できる - 主辞 と 空範疇の関係 が 明示的になる 主辞単位で評価できるので 簡潔で明確
モデル • 係り受け 構造に対して分類(上) • 素性抽出は句構造(再パースしたもの)から抽出(下)
素性抽出:overviews • 言語学的な性質に着目した素性群6種 – Horizonal features – Vertical features –
Targeted grammatical constructions – Head information – Transitivity features – Semantic role features
素性抽出:ablation test
素性抽出:Horizonal features • 主辞hや空範疇の隣接の単語p, t 前後関係を抽出したもの – 主辞h, 空範疇の隣接の単語p, tの
表層系およびPOS label – 上記ラベルの組み合わせ素性 – 主辞と空範疇の隣接の単語の距離 same, immediately before/after, near before/after, other – h ~ t までの間にある動詞の数 – h ~ t までの間にあるカンマの数
素性抽出:Vertical features • 主辞h や 空範疇の隣接の単語p, t の構造的な特 徴に着目した素性 –
t から p と t の共通の親 Aまでのパス – h ~ t までのパス – p と t の共通の親 A から hまでのパス
素性抽出:Targetd grammatical construction • 言語学的構造(IP node) に 着目した 特徴 –
隣接の単語t が IPの始まりに位置するか? – 隣接の単語t が 主語の無いIPの始まりに位置するか? – tが左端にある 親IPの 左兄弟/右兄弟のラベル – tが左端にある親IPのgovernning-verbの 表層系 – tが左端にある親IPはlocalizer phraseの補語になるか? – tが左端に有る親IPは主格の役割を持っているか?
素性抽出:Head information • 複数の述語が 一つの空範疇を共有する時の 構造情報を 捉えるための特徴 – 係り受け構造では ECに対し
head はひとつのみ – IP中に VPが複数あるような構造を対象とした素性 – 動詞が head になりうるか否かを表す2値 • 再パース 際の誤り も意識している • おそらく RNR(右枝節繰り上がり)の検出に効果的
素性抽出:ablation test
実験 CTBの空範疇の種類 • pro : small pro(ゼロ代名詞) • PRO: big
pro (主語代名詞. 文中に参照を持つ) • OP : 関係代名詞の省略を表す空範疇 • T : NP痕跡. 名詞句の移動を表す空範疇 • RNR: 右枝接点繰り上げ 構文を表す • * : 受動態や繰り上げの痕跡を表す • ? : 不明. その他の空範疇
実験-データセット • CTB v6.0
実験-結果
結論 • 係り受け構造に対する空範疇検出モデルの提案 – ECが複数有る場合にも対応できる(再現率の改善) – 言語学的性質に着目することで (Cai et al.
2011) のモデルより 大きく改善 +7.4ポイント – pro に 対する性能はかなり低い • cf. (Wang et al. 2015) では 大きく 改善されている