Upgrade to Pro — share decks privately, control downloads, hide ads and more …

語順の相関に基づく機械翻訳の自動評価方法

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for takegue takegue
June 18, 2014

 語順の相関に基づく機械翻訳の自動評価方法

Avatar for takegue

takegue

June 18, 2014
Tweet

More Decks by takegue

Other Decks in Technology

Transcript

  1. • 平尾努, 磯崎秀樹, 須藤克仁, K. Duh, and 塚田元, “語順の相 関に基づく機械翻訳の自動評価法,”

    自然言語処理. vol. 21, no.3, pp. 421–444, 2014. Abstract – 機械翻訳のタスクでの評価法の重要性 • 自動評価法の需要 • BLUE(2002)が 高い ≠ 日英翻訳の精度が高い – (言語の構造情報が大きく異なる) • ROUGE-L, IMPACT, METEOR, BLEU など… – 評価法を評価する(メタ評価) • 人間の感覚に近い(相関が高い)自動評価方法が必要 • NTCIR-7,NTCIR-9といった日英, 英日の特許翻訳タスク – RIBES(提案手法):語順を中心とした評価~人間の評価感覚 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 文献紹介:語順の相関に基づく機械翻訳の自動評価法 2014/6/19 lang1 lang2’’ SMT RBMT 参照翻訳 lang2’
  2. • BLEU(2002) – システム翻訳と参照翻訳のNグラム一致度で評価法 – 機械翻訳の自動評価法のデファクトスタンダード(実装が簡易) – Nグラムの一致 ≠ 参照翻訳の意味の一致

    の 問題 • 翻訳時の語順構造が異なる言語間では非常に起こりやすい c.f. 翻訳前に並び替えすることで翻訳精度が上がる(preordering) • 日英・英日翻訳では BLEUが高い ≠ 人の評価結果が高い(相関が低い) • ROUGE-L(2004), IMPACT(2007) – 大局的な語順構造を考慮した評価法。最長共通部分文字列(LCS) – BLUEと同様訳語の違いに敏感(訳語の意味の類似性が捉えられない) 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 既存の評価手法とその問題点 2014/6/19
  3. 原)雨にぬれたので、彼は風をひいた 訳)He caught a cold because he got soaked in

    the rain. 1:He caught a cold because he had gotten wet in the rain. 2:He got soaked in the rain because he caught a cold. 3:He caught a cold as a result of getting hit by the rain. 2は完全な間違い だが BLEU1と2ではほぼ差が付かない ROUGE-L, IMPACTでは差がつく しかし3の評価は低くなる傾向にある 2014/6/19 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 例
  4. • RIBES(2011~:提案手法) – 正規化されたKendall距離を利用した評価法 • Kendall距離 ・・・同じ並びなら1, 逆ならば-1, バラバラの場合0 –

    文の大局的な語順を考慮される – 参照翻訳とシステム翻訳とで一致しない単語を採点から除去 • LRscore(2011) – 文の大局的な語順が考慮される – 非線形変換されたKendall距離とBLEUスコアの線形補間 – 特殊な状況下でRIBESと一致(想定する対象言語が違う) 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 語順の相関に基づく評価手法 2014/6/19
  5. 1. 単語アライメント – 相関を求めるための単語アライメントを取る – 単語表層アライメント 2. 単語出現順の相関の算出 – Kendallの順位相関係数τを用いて評価を行う

    3. ペナルティ – 単語のアライメント結果だけでは不十分な可能性が高い – 単語正解率とBP(Brevity Penalty)によるペナルティ 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ RIBESにおける評価方法 2014/6/19
  6. 原)雨にぬれたので、彼は風をひいた 2014/6/19 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 例 r) he caught

    a cold because he got soaked in the rain. h) he got soaked in the rain because he caught a cold. r) he caught a cold because he got soaked in the rain. h) he caught a cold because he had gotten wet in the rain.
  7. • NTCIR-7, NTCIR-9の特許翻訳タスクを利用 – メタ評価対象は翻訳の内容としての適切性のみ(adequacy) • 翻訳の流暢性は考慮していない – BLEU, ROUGE-L,

    IMPACT, LRsocreの比較 • 参照翻訳それぞれのスコアの最大値 – メタ評価指標 • Pearsonの積率相関係数,Spearmanの順位相関係数, Kendallの順位相関係数の3種で評価 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ メタ評価タスク NTCIR 2014/6/19
  8. RIBESは単一・複数に関わらず安定している。 JEでは人評価と最も相関が高い手法である 2014/6/19 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 評価結果(NTCIR-7の結果) (Spearman) JE

    EJ RIBES 0.926 0.835 LRscore(dk1) 0.869 0.846 LRscore(dk2); 0.823 0.830 ROUGE-L 0.895 0.717 IMPACT 0.866 0.697 BLEU 0.588 0.676 JE EJ 0.954 0.923 0.936 0.843 0.916 0.833 0.970 0.925 0.957 0.857 0.827 0.722 単一参照文翻訳 複数参照文翻訳 EJ:検証システム 14(1), 評価者5, 文数100, JE:検証システム 15(2), 評価者3, 文数100
  9. RIBESは比較的安定。 ROUGE-L, IMPACT, BLEU は相関が弱くなる。 2014/6/19 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ

    評価結果(NTCIR-9の結果) (Spearman) JE EJ RIBES 0.614 0.895 LRscore(dk1) 0.630 0.889 LRscore(dk2) 0.489 0.873 ROUGE-L 0.292 0.249 IMPACT 0.29 0.132 BLEU -0.026 -0.032 単一参照文翻訳 JE:検証システム 19(6), 評価者1, 文数300, EJ:検証システム 17(5), 評価者1, 文数300 SMTのシステムが増えたことに起因 RIBESはSMTとRBMTの揺れが少ない ※LRScore は RIBESと同等と思われるが RBMTシステムに対しては相関が弱い
  10. • 機械翻訳におけるRIBESと既存の評価法のメタ評価 – BLEU, ROUGE-L, IMPACT の問題点および評価対象となる 翻訳システムにおける相関の特性について明らかにした。 – RIBES

    は 日英のSMT, RBMTにおいて有効な評価手法 – ただし本研究の着眼点はコーパス単位での平均的な評価法 より詳細な文単位での評価を見ることも機械翻訳研究の進展 のためには非常に重要である • 所感: – NLPにおける評価法の重要性(ユーザの視点 と 有意性) – コーパス、ツールの充実度の重要性 2014/6/19 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ まとめ
  11. • [1] 平尾努, 磯崎秀樹, K. Duh, 須藤克仁, 塚田元, and 永田昌明,

    “RIBES: 順位相関に基づく翻訳の自動評価法,” 言語処理学会第 17 年 次大会発表論文集, pp. 1111–1114, 2011. • [2] K. Papineni, S. Roukos, T. Ward, and W. Zhu, “Bleu : a Method for Automatic Evaluation of Machine Translation,” Proc. Annu. Meet. Assoc. Comput. Linguist. (ACL),, vol. 22176, no. RC22176, pp. 1–10, 2002. • [3] R. Bleu, B. Bleu, R. Ribes, B. Ribes, R. Ntcir-, and R. Ntcir, “言 語処理学会 第 20 回年次大会 発表論文集 (2014 年3月),” no. C, pp. 8–11, 2014. • [4] 磯崎秀樹, “最近の自動評価法の研究動向とRIBES,” in 平成24年 度AAMT/Japio特許翻訳研究会, 2012, vol. 7, pp. 1–62. 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 参考文献 2014/6/19