Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Chinese Zero Pronoun Resolution:An Unsuper...

takegue
February 24, 2015
94

文献紹介:Chinese Zero Pronoun Resolution:An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

EMNLP2014

takegue

February 24, 2015
Tweet

Transcript

  1. Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised

    Resolvers Presented by 竹野 峻輔 長岡技術科学大学 文献紹介@自然言語処理研究室 Chen Chen and Vincent Ng ※数式および表は基本的に論文中のものを拝借しております
  2. 主旨 • テーマはゼロ代名詞の照応解決 (Zero Prenoun Resolution) – これまでは 教師有学習がメインだった –

    提案手法は教師なし学習を行い これが教師有学習と同程度の性能 Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers
  3. ゼロ代名詞について • 言語における代名詞の省略現象 – アライメントがうまく取れない → 機械翻訳の結果に直結する – 日本語ならば ガ格

    が省略されやすい Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers ex.) I gave him the present. *pro* 彼に プレゼントを あげた.
  4. 論文の取り組み 1. ゼロ代名詞を補完する – どこにゼロ代名詞があるか? 2. ゼロ代名詞の参照先を解決する – ゼロ代名詞はどの名詞に照応するか –

    格の推定等にも影響してくる Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers
  5. 論文の取り組み 1. ゼロ代名詞を補完する – どこにゼロ代名詞があるか? 2. ゼロ代名詞の参照先を解決する – ゼロ代名詞はどの名詞に照応するか –

    格の推定等にも影響してくる Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers
  6. 論文の取り組み 1. ゼロ代名詞を補完する – どこにゼロ代名詞があるか? 2. ゼロ代名詞の参照先を解決する – 格の推定等に影響してくる –

    格の推定等にも影響してくる [俄罗斯] 作为米洛舍夫维奇一贯的支持者, *pro*曾经提出调停这场政治危机。 訳:[Russia] is a consistent supporter of Milošević, *pro* has proposed to mediate the political crisis.) Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers
  7. 提案手法(アイディア) Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling

    Supervised Resolvers このグッズが好きです だから私は*pro*あげました. このグッズが好きだから 私は, それあげたんだ [pro → ? ] [それ → グッズ] 一般的な代名詞 の 照応関係に関する知識 を ゼロ代名詞に適用する イメージ:
  8. p: 対象とする (ゼロ)代名詞 c: 照応先の候補の名詞 k: p,c の文脈 l :

    cがpの照応先か否か 提案手法(モデル) • 明示的な代名詞(overt pronoun) と参照先の関 係からゼロ代名詞の参照先を学習する. – 我(I) 你(you) 他(he) 她(she) 它(it) 你们(you) … • EM法による生成モデルの最適化 Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers
  9. p: 対象とする (ゼロ)代名詞 c: 照応先の候補の名詞 k: p,c の文脈 l :

    cがpの照応先か否か 提案手法(モデル) • EM法による生成モデルの最適化 – E-step: P(l=1|p,k,c)の計算 – M-step: P(p, k, c,l)の計算 Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers これを全ての明示的な 代名詞p について繰り返す.
  10. 提案手法(詳細) : E-step 仮定に基づき簡単化: Chinese Zero Pronoun Resolution: An Unsupervised

    Probabilistic Model Rivaling Supervised Resolvers 生成モデルとして結合確率を分解 文脈kの 生起確率 文脈kに基づく cの生起確率 文脈kと候補cに基づいて cがpの照応である確率 文脈kでcの照応元が pであるときの 代名詞pの生起確率 a : 名詞の属性(有生性, 人称, 数量, 性別)
  11. 提案手法(詳細): E-step 仮定に基づき簡単化 Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic

    Model Rivaling Supervised Resolvers 生成モデルとして結合確率を分解(正規化のための分母は省略): 文脈kの 生起確率 文脈kに基づく cの生起確率 文脈kと候補cに基づいて cがpの照応である確率 文脈kでcの照応元が pであるときの 代名詞pの生起確率 a : 名詞の属性(有生性, 人称, 数量, 性別) pとcが同じ人称の照応関係にある確率 cの文脈k に基づいた照応の確率
  12. 提案手法(詳細):E-step Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling

    Supervised Resolvers 生成モデルとして結合確率を分解 文脈kの 生起確率 文脈kに基づく cの生起確率 文脈kと候補cに基づいて cがpの照応である確率 文脈kでcの照応元が pであるときの 代名詞pの生起確率 a : 名詞の属性(有生性, 人称, 数量, 性別) 1. 名詞c に対応した代名詞 p は文脈kに依存しない 2. 代名詞の各属性は独立
  13. 提案手法(詳細): E-step Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model

    Rivaling Supervised Resolvers 生成モデルとして結合確率を分解 文脈kの 生起確率 文脈kに基づく cの生起確率 文脈kと候補cに基づいて cがpの照応である確率 文脈kでcの照応元が pであるときの 代名詞pの生起確率 a : 名詞の属性(有生性, 人称, 数量, 性別) 3. cが照応先であるかは 他の候補に依存しない 4. cの周りの文脈情報で照応先になりうるかは 十分求まる
  14. 提案手法(詳細): E-step Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model

    Rivaling Supervised Resolvers 生成モデルとして結合確率を分解 文脈kの 生起確率 文脈kに基づく cの生起確率 文脈kと候補cに基づいて cがpの照応である確率 文脈kでcの照応元が pであるときの 代名詞pの生起確率 a : 名詞の属性(有生性, 人称, 数量, 性別) 4. 文脈kが与えられた時, 候補cの生起全て等価 5. 文脈kの生起確率は考慮しない () =
  15. 名詞の属性および文脈素性 1. aの決め方(ANIMACY, GENDER, NUMBER, PERSON) 様々な名詞に対してどのように人称を付与するか 2. kc の決め方.

    具体的な文脈素性はどうするか. Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers
  16. 名詞の属性付与について 先行詞とゼロ代名詞の属性(pa, ca)を学習を行う前に際 に自動的に付与する 基本的にはコーパスからルールベースで付与. • ANIMACY = (animate, inanimate,

    unknow): 固有名詞, 一般名詞に場合分けし、辞書で分類 • GENDER =(neuter, masculine, feminine): ANIMACYの結果と性別の単語辞書で分類 • NUMBER = (singular, plural) NP中の数量を表す単語を目印に決定( e.x. ~ら ) • PERSON = (first , second, third) Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers
  17. 文脈素性 • 句構造解析結果に基づき, 素性を抽出. 8種類(うち3種は3値の素性) 1. c と pの間の文数 2.

    cのスパンのノードは祖先に1つのNPをもつか? (not : 2-1) そのNPはIPノード中のもっとも下層のノードか(2-2, 2-3) … 8. 参照先候補(c)が 参照元(p)に最も近い主語 かつ p に対して適合するか(8-1) でなければ, c は p に適合する初めての先行詞か(8-2, 8-3) ※c と p の動詞の適合性は それぞれの 述語のMIを計算し, MI > 0 ならば適合としている. Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers
  18. Evaluation • CoNNL2012のOntoNotes5.0のtrain/devを train/testとして利用. • Corpusのドメインごとに評価. Broadcast News (BN), Newswire

    (NW),Broadcast Conversation(BC), Telephone Conversation (TC), Web Blog (WB) and Magazine (MZ). • Baselineに昨年の手法を利用 Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers
  19. Evaluation Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling

    Supervised Resolvers 教師有学習と同程度の精度を達成
  20. Conclusion & Reference • 教師なし学習によるゼロ代名詞の照応手法を提案 – いくつかの代名詞を利用し EM法による教師なし学習 – 最新の教師有り学習と同程度の性能.

    – 日本語にも転用できそう. • 参考文献 – C. Chen and V. Ng, “Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers,” in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, no. 2006, pp. 763–774. Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers