Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Dependency-based empty category detection via ...

Dependency-based empty category detection via phrase structure trees

文献紹介 Dependency-based empty category detection via phrase structure trees

Avatar for takegue

takegue

June 22, 2015
Tweet

More Decks by takegue

Other Decks in Technology

Transcript

  1. 概要 Chinese Treebank における 空範疇検出. 係り受け構造 におけるモデル化 - 出力は係り受け構造 素性抽出は句構造から

    という特殊なモデル - 言語学的性質に着目した素性群の提案 Nianwen Xue and Yaqin Yang. 2013. Dependency-based empty category detection via phrase structure trees. In Proceedings of NAACL-HLT 2013, pages 1051–1060. .
  2. 導入 • なぜ空範疇検出に取り組むのか? – pro-drop language では 頻繁に空範疇が出現する – 空範疇

    ∋ ゼロ代名詞, NP痕跡, 関係代名詞の省略 … – 参照解決の問題. (文脈を機械的に理解するため) – 機械翻訳 では 大きな問題 • Word alignment の精度の改善(Xiang, 2013) • 空範疇を適切に埋めてやることでBLEUが大幅に向上 (Xian et al. 2013, Chung and Gildea 2010)
  3. モデル 主辞hと隣接する単語t の (渉及, 的) → *OP*  組み合わせ (h, t)に対する空範疇の分類問題.

    - 複数の空範疇が連続する場合にも対応できる - 主辞 と 空範疇の関係 が 明示的になる 主辞単位で評価できるので 簡潔で明確
  4. 素性抽出:overviews • 言語学的な性質に着目した素性群6種 – Horizonal features – Vertical features –

    Targeted grammatical constructions – Head information – Transitivity features – Semantic role features
  5. 素性抽出:Horizonal features • 主辞hや空範疇の隣接の単語p, t 前後関係を抽出したもの – 主辞h, 空範疇の隣接の単語p, tの

    表層系およびPOS label – 上記ラベルの組み合わせ素性 – 主辞と空範疇の隣接の単語の距離 same, immediately before/after, near before/after, other – h ~ t までの間にある動詞の数 – h ~ t までの間にあるカンマの数
  6. 素性抽出:Vertical features • 主辞h や 空範疇の隣接の単語p, t の構造的な特 徴に着目した素性 –

    t から p と t の共通の親 Aまでのパス – h ~ t までのパス – p と t の共通の親 A から hまでのパス
  7. 素性抽出:Targetd grammatical construction • 言語学的構造(IP node) に 着目した 特徴 –

    隣接の単語t が IPの始まりに位置するか? – 隣接の単語t が 主語の無いIPの始まりに位置するか? – tが左端にある 親IPの 左兄弟/右兄弟のラベル – tが左端にある親IPのgovernning-verbの 表層系 – tが左端にある親IPはlocalizer phraseの補語になるか? – tが左端に有る親IPは主格の役割を持っているか?
  8. 素性抽出:Head information • 複数の述語が 一つの空範疇を共有する時の 構造情報を 捉えるための特徴 – 係り受け構造では ECに対し

    head はひとつのみ – IP中に VPが複数あるような構造を対象とした素性 – 動詞が head になりうるか否かを表す2値 • 再パース 際の誤り も意識している • おそらく RNR(右枝節繰り上がり)の検出に効果的
  9. 実験 CTBの空範疇の種類 • pro : small pro(ゼロ代名詞) • PRO: big

    pro (主語代名詞. 文中に参照を持つ) • OP : 関係代名詞の省略を表す空範疇 • T : NP痕跡. 名詞句の移動を表す空範疇 • RNR: 右枝接点繰り上げ 構文を表す • * : 受動態や繰り上げの痕跡を表す • ? : 不明. その他の空範疇
  10. 結論 • 係り受け構造に対する空範疇検出モデルの提案 – ECが複数有る場合にも対応できる(再現率の改善) – 言語学的性質に着目することで (Cai et al.

    2011) のモデルより 大きく改善 +7.4ポイント – pro に 対する性能はかなり低い • cf. (Wang et al. 2015) では 大きく 改善されている