Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成

youichiro
June 22, 2020

 日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成

言語処理学会第26回年次大会(NLP2020)
テーマセッション: 言語教育と言語処理の接点 での発表スライド
原稿: https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/F2-3.pdf

youichiro

June 22, 2020
Tweet

More Decks by youichiro

Other Decks in Research

Transcript

  1. 6 1. 背景 日本語学習者の誤り傾向 日本語学習者は助詞が最も間違えやすい → 助詞誤りに限定した研究が多い [今枝ら2003]日本語学習者の作文における格助詞の誤り検出と訂正 [Suzukiら2006]Learning to

    predict case markers in Japanese [南保ら2007]文節内の特徴を用いた日本語助詞誤りの自動検出・校正 [Oyama2010]Automatic error detection method for japanese particle [笠原ら2012]日本語学習者の誤り傾向を反映した格助詞訂正 [今村ら2012]小規模誤りデータからの日本語学習者作文の助詞誤り訂正
  2. [水本ら2013] • 統計的機械翻訳(SMT)を用いて日本語文法誤り訂正 • 学習者コーパスLang-8を訓練データに使用 1. 背景 先行研究 9 本研究では

    • ニューラル機械翻訳(NMT)を用いて日本語文法誤り訂正 • 擬似誤り生成による訓練データ拡張 • 日本語特有の誤り傾向を考慮した擬似誤り生成手法を提案 訂正性能の向上を目指す
  3. 機械翻訳(英語→日本語)  英語→日本語のペアを大量に訓練し、英文から日本語訳を生成する 2. 訂正手法 機械翻訳手法 翻訳モデル 「I have a pen.」

    機械翻訳手法を用いた文法誤り訂正  学習者作文→添削文のペアを大量に訓練し、誤り文から訂正文を生成する 「私は車で買う」 「私は車を買う」 訂正モデル 12 「私はペンを持つ。」
  4. 2. 訂正手法 訂正モデル 「私 は 車 で 買う」 「私 は

    車 を 買う」 訂正モデル (ニューラル機械翻訳モデル: Transformer) 13 入力文 出力文
  5. 2. 訂正手法 訂正モデル 「私 は 車 を 買う」 変更が不要な単語はコピーさせたい →

    コピー機構を組み込む 全単語の予測確率分布 「私 は 車 で 買う」 16 Transformer
  6. 3. 擬似誤り生成手法3: DirectNoise(ja) 日本語特有の誤り傾向を取り入れた擬似誤り生成(詳細) 置換 助詞は10%, 助詞以外は5%の確率で他の単語に置換 70%の確率で助詞から, 30%の確率で助詞以外から選択 削除

    助詞は10%, 助詞以外は5%の確率で削除. 送り仮名が ある単語は50%の確率で送り仮名の1文字目を削除. 挿入 5%の確率で後ろに単語を挿入. 70%の確率で助詞から, 30%の確率で助詞以外から選択 入れ替え DirectNoiseの入れ替え操作を文節ごとに順番に行う 27
  7. 【訓練データ】 - 学習者コーパス  Lang-8 約1.6M文対 - 擬似誤りコーパス 日本語コーパスBCCWJ 約6M文から擬似誤り生成 【評価データ】 NAIST誤用コーパス 6,672文

    【評価尺度】 - Precision, Recall, F0.5 - F0.5が高いほど訂正性能が高い 【文の分割単位】 ひらがなの形態素解析は失敗しやすい → 全ての文を文字単位に分割して実験を行った F0.5: Precisionを重視したF値 4. 実験 実験設定 31
  8. 4. 実験 様々な誤りに対する訂正例 36 助詞 入力文 出力文 質問を対応する 質問に対応する。 適切

    活用 入力文 出力文 ブックを開きてください ブックを開けてください。 適切 接続詞 入力文 出力文 体調が悪いだから休みます 体調が悪いから休みます。 適切 態 入力文 出力文 メッセージを表示されます メッセージを表示します。 適切 時制 入力文 出力文 昨日は雨が降る 昨日は雨が降った。 適切 カタカナ語 入力文 出力文 アイコンをクリークする アイコンをクリックする。 適切 促音長音濁音 入力文 出力文 質問があたらお願いします 質問があったらお願いします。 適切
  9. 指示詞 入力文 出力文 その以下のサイズに設定 以下のサイズに設定。 不適切 疑問詞 入力文 出力文 そのネックレスはいくつですか?

    そのネックレスはいくつですか。 不適切 語順 入力文 出力文 良いでしょう。だから別に服なんて 良いでしょう。だから別に服なんて。 不適切 同音異義語 入力文 出力文 メモリ内臓 メモリ内臓。 不適切 母語の使用 入力文 出力文 勉強するためにローンを取った 勉強するためにローンを取った。 不適切 誤字脱字 入力文 出力文 私立ちでやります 私立ちでやります。 不適切 4. 実験 様々な誤りに対する訂正例 37
  10. 40