Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Task-Oriented Word Segmentation (Presentation f...

tatHi
January 04, 2022

Task-Oriented Word Segmentation (Presentation for Doctoral Dissertation)

Slides for the presentation of my doctoral dissertation (in Japanese).
The contents of the presentation are already published as the following papers:
- https://aclanthology.org/2020.findings-emnlp.120/
- https://aclanthology.org/2021.findings-acl.21/

tatHi

January 04, 2022
Tweet

More Decks by tatHi

Other Decks in Research

Transcript

  1. 本研究の概要 • ⽬的: • 後段タスクに応じて適切な単語分割を探索し,⾃然⾔語処理タスクで の性能向上を⽬指す • 解決⽅策: • 単語分割と後段モデルを同時に最適化することで,

    後段タスクに応じた適切な単語分割を学習 • 貢献: • 後段モデルと単語分割を同時に最適化する初めての試みである • タスクやモデルに応じた単語分割を獲得できる⼿法を提案 • 複数のNLPタスクで性能向上に寄与する 2022/1/5 博⼠論⽂発表会(平岡達也) 2 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  2. 単語分割 どちらも「単語分割」と呼ぶことにします 今⽇はとてもいい天気ですね 今⽇ は とても いい 天気 です ね

    Itʼs sunny today . It ##ʼ ##s sun ##ny to ##day . 2022/1/5 博⼠論⽂発表会(平岡達也) 3 ⽂→単語列 単語列→サブワード列 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  3. text text … text text … 単語分割器 Corpus Tokenized corpus

    後段モデル 問題意識 • 「前処理」としての単語分割に問題意識 • ⼀般的なNLPにおける単語分割と後段モデルの関係 - ⽂書分類 - 機械翻訳 - 固有表現抽出 - … - MeCab - BPE - … 2022/1/5 博⼠論⽂発表会(平岡達也) 4 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  4. text text … text text … 単語分割器 Corpus Tokenized corpus

    後段モデル 問題意識 • 「前処理」としての単語分割に問題意識 • ⼀般的なNLPにおける単語分割と後段モデルの関係 - ⽂書分類 - 機械翻訳 - 固有表現抽出 - … - MeCab - BPE - … 適切な単語分割で性能向上 →後段タスク/モデルに依存* 2022/1/5 博⼠論⽂発表会(平岡達也) 5 *Xu+, 2008; Chang+, 2008; Nguyen+, 2010; Domingo+, 2018; Hiraoka+, 2019; Gowada and May, 2020. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  5. text text … text text … 単語分割器 Corpus Tokenized corpus

    後段モデル 問題意識 • 「前処理」としての単語分割に問題意識 • ⼀般的なNLPにおける単語分割と後段モデルの関係 - ⽂書分類 - 機械翻訳 - 固有表現抽出 - … - MeCab - BPE - … 前処理として単語分割を 決定しなければいけない 前処理 適切な単語分割で性能向上 →後段タスク/モデルに依存* 2022/1/5 博⼠論⽂発表会(平岡達也) 6 *Xu+, 2008; Chang+, 2008; Nguyen+, 2010; Domingo+, 2018; Hiraoka+, 2019; Gowada and May, 2020. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  6. text text … text text … 単語分割器 Corpus Tokenized corpus

    後段モデル 問題意識 • 「前処理」としての単語分割に問題意識 • ⼀般的なNLPにおける単語分割と後段モデルの関係 - ⽂書分類 - 機械翻訳 - 固有表現抽出 - … - MeCab - BPE - … 前処理として単語分割を 決定しなければいけない 前処理 適切な単語分割で性能向上 →後段タスク/モデルに依存* GAP 2022/1/5 博⼠論⽂発表会(平岡達也) 7 *Xu+, 2008; Chang+, 2008; Nguyen+, 2010; Domingo+, 2018; Hiraoka+, 2019; Gowada and May, 2020. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  7. 解決方策 • 後段モデルの性能が向上するように単語分割を更新する text text … text text … 単語分割器

    Corpus Tokenized corpus 後段モデル 後段モデルと同時に単語分割器を学習 単語分割を更新 2022/1/5 博⼠論⽂発表会(平岡達也) 8 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  8. 従来の単語分割 2022/1/5 博⼠論⽂発表会(平岡達也) 9 辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割 text text …

    text text … 単語分割器 Corpus Tokenized corpus 後段モデル おおまかに3種類のアプローチ 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  9. 従来の単語分割 2022/1/5 博⼠論⽂発表会(平岡達也) 10 辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割 • 主に⽇本語のMeCab,JUMAN++,Sudachi* •

    辞書に含まれる単語候補とそのスコアをもとに分割 • ⼀般的には品詞推定と合わせて形態素解析として扱われる text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 辞書引き *Kudo, 2006; Morita+, 2015; Takaoka+, 2018. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  10. 従来の単語分割 2022/1/5 博⼠論⽂発表会(平岡達也) 11 辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割 • 主に中国語で⽤いられる* •

    PKUやCTBなどのデータで学習したNNを⽤いた単語分割 text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 単語分割 学習⽤データ 学習 *Yang+, 2017; Cai+, 2017; Yang+, 2018. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  11. 従来の単語分割 2022/1/5 博⼠論⽂発表会(平岡達也) 12 辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割 • 主に英語などのサブワード分割(BPE,SentencePiece*) •

    後段⽤の学習データなどを⽤いて教師なしで単語分割を学習 text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 教師なしで 単語分割を学習 *Sennrich+, 2016; Kudo and Richardson, 2018. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  12. 従来の単語分割 2022/1/5 博⼠論⽂発表会(平岡達也) 13 辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割 • 主に英語などのサブワード分割(BPE,SentencePiece*) •

    後段⽤の学習データなどを⽤いて教師なしで単語分割を学習 • 提案⼿法は教師なし単語分割の流れを汲む • 後段タスクの情報を⽤いて単語分割を探索する亜種 text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 教師なしで 単語分割を学習 +後段モデルの 情報も利⽤ *Sennrich+, 2016; Kudo and Richardson, 2018. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  13. text text … text text … 単語分割器 Corpus Tokenized corpus

    後段モデル 単語分割問題への取り組み 前処理 適切な単語分割で性能向上 →後段タスク/モデルに依存 GAP 2022/1/5 博⼠論⽂発表会(平岡達也) 14 前処理として単語分割を 決定しなければいけない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  14. text text … text text … 単語分割器 Corpus Tokenized corpus

    後段モデル 単語分割問題への取り組み 前処理 適切な単語分割で性能向上 →後段タスク/モデルに依存 GAP 2022/1/5 博⼠論⽂発表会(平岡達也) 15 サブワード正則化 複数の単語分割を 受け取る後段モデル 単語分割器の探索 おおまかに3種類の対処法 前処理として単語分割を 決定しなければいけない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  15. 単語分割問題への取り組み 2022/1/5 博⼠論⽂発表会(平岡達也) 16 サブワード正則化 複数の単語分割を 受け取る後段モデル 単語分割器の探索 … text

    text Corpus 単語分割器A 単語分割器B 単語分割器C … text text … text text … text text 複数の異なる単語分割器 複数の単語分割を受け取れる ように拡張した後段モデル • 後段モデルを拡張し,複数の単語分割を同時に⼊⼒する* • 複数の単語分割の中に,後段モデルに適したものがあるはず • 後段モデルの仕組みを⼤きく変える必要があり,処理も遅い *Chen+, 2017; Zhang and Yang, 2018; Yang+, 2018. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  16. 単語分割問題への取り組み 2022/1/5 博⼠論⽂発表会(平岡達也) 17 サブワード正則化 複数の単語分割を 受け取る後段モデル 単語分割器の探索 … text

    text Corpus 単語分割器 … text text … text text … text text 単語分割を毎回サンプリングして学習 • 学習エポックごとに使⽤する単語分割をサンプリング* • 後段モデルは複数の単語分割を学習事例に使⽤可能 • 後段モデルの構造を変える必要なし 後段モデル *Kudo, 2018; Hiraoka+, 2019; Provilkov+, 2019. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  17. 単語分割問題への取り組み 2022/1/5 博⼠論⽂発表会(平岡達也) 18 サブワード正則化 複数の単語分割を 受け取る後段モデル 単語分割器の探索 … text

    text Corpus 単語分割器A 単語分割器B 単語分割器C … text text … text text … text text 実際に性能を測ってみる • 何らかの指標で「適切な」単語分割器を選択 • 究極的には,あらゆる単語分割器で後段モデルを学習してみて, 性能が良いものを選択する • 現実的ではない 後段モデル 後段モデル 後段モデル 採⽤ Chang et al., 2008. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  18. 単語分割問題への取り組み 2022/1/5 博⼠論⽂発表会(平岡達也) 19 サブワード正則化 複数の単語分割を 受け取る後段モデル 単語分割器の探索 … text

    text Corpus 単語分割器 複数の or サンプリングした 単語分割で学習 • 提案⼿法は,複数の単語分割で後段モデルを学習しつつ, 「適切な」単語分割器を直接学習していく複合的なアプローチ 後段モデル 性能向上に繋がる 単語分割の情報を フィードバック … text text … text text … text text 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  19. 本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 20 ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach

    2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  20. ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上

    拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得 Approach 1 2022/1/5 博⼠論⽂発表会(平岡達也) 21 ⾃然⾔語処理 28号vol.2, 2021. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  21. 目的と解決方策(再掲) • 後段モデルの性能が向上するように単語分割を更新する text text … text text … 単語分割器

    Corpus Tokenized corpus 後段モデル 後段モデルと同時に単語分割器を学習 単語分割を更新 2022/1/5 博⼠論⽂発表会(平岡達也) 22 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  22. コアアイディア • 後段モデルの性能が向上するように単語分割を更新する text text … text text … 単語分割器

    Corpus Tokenized corpus 後段モデル 後段モデルと同時に単語分割器を学習 単語分割を更新 ニューラルネットで作成 ↓ 後段モデルの損失で更新 2022/1/5 博⼠論⽂発表会(平岡達也) 23 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  23. 手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 Neural Unigram LM N-best分割 2022/1/5

    博⼠論⽂発表会(平岡達也) 24 ニューラル⾔語モデル による単語分割器 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  24. 手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 Neural Unigram LM N-best分割 2022/1/5

    博⼠論⽂発表会(平岡達也) 25 ニューラル⾔語モデル による単語分割器 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対 単語確率が学習可能パラメータ
  25. 手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 Neural Unigram LM N-best分割 エ

    ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 2022/1/5 博⼠論⽂発表会(平岡達也) 26 ニューラル⾔語モデル による単語分割器 ⽂ベクトル LSTM, BiLSTM, Transformerなど 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対 単語確率が学習可能パラメータ
  26. 手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 Neural Unigram LM N-best分割 ×

    𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 2022/1/5 博⼠論⽂発表会(平岡達也) 27 ニューラル⾔語モデル による単語分割器 ⽂ベクトル LSTM, BiLSTM, Transformerなど 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対 単語確率が学習可能パラメータ
  27. 手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM

    N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% MLP 損 失 関 数 2022/1/5 博⼠論⽂発表会(平岡達也) 28 ニューラル⾔語モデル による単語分割器 ⽂ベクトル LSTM, BiLSTM, Transformerなど 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対 単語確率が学習可能パラメータ
  28. ニューラル⾔語モデル による単語分割器 手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural

    Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% 損 失 関 数 2022/1/5 博⼠論⽂発表会(平岡達也) 29 ⽂ベクトル MLP LSTM, BiLSTM, Transformerなど 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 分類器の更新 単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対 単語確率が学習可能パラメータ
  29. 単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対

    ニューラル⾔語モデル による単語分割器 手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% 損 失 関 数 2022/1/5 博⼠論⽂発表会(平岡達也) 30 ⽂ベクトル MLP LSTM, BiLSTM, Transformerなど 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 分類器の更新 単語確率が学習可能パラメータ ℒ! が⼩さくなる単語分割に⾼ い確率を与えるように更新
  30. 推論時の単語分割 • 推論時は学習済みの単語分割器を⽤いて1-best分割 2022/1/5 博⼠論⽂発表会(平岡達也) 31 0 0.2 0.4 0.6

    0.8 Positive Negative ラベルの予測確率 法改正反対 法/改/正/反対 Neural Unigram LM 1-best分割 MLP エ ン コ $ ダ $ 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  31. 単語分割器の初期化 • 単語分割器はSentencePiece*で学習した語彙・単語確率で初期化 • 与えられた語彙から適切な単語分割を求める 2022/1/5 博⼠論⽂発表会(平岡達也) 32 法改正反対 法/改正/反対

    法/改/正/反対 法/改/正反対 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% MLP 損 失 関 数 * Kudo and Richardson, 2018. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  32. 文書分類タスクで性能向上 タスク ⾔語 単語分割の 最適化なし 単語分割の 最適化あり 感情分析 中 92.79

    92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測 中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測 中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/1/5 博⼠論⽂発表会(平岡達也) 33 • ⽂書分類モデルのエンコーダーはBiLSTM 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)
  33. 文書分類タスクで性能向上 タスク ⾔語 単語分割の 最適化なし 単語分割の 最適化あり 感情分析 中 92.79

    92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測 中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測 中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/1/5 博⼠論⽂発表会(平岡達也) 34 Weibo, Twitter • ⽂書分類モデルのエンコーダーはBiLSTM 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)
  34. 文書分類タスクで性能向上 タスク ⾔語 単語分割の 最適化なし 単語分割の 最適化あり 感情分析 中 92.79

    92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測 中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測 中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/1/5 博⼠論⽂発表会(平岡達也) 35 Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon • ⽂書分類モデルのエンコーダーはBiLSTM 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)
  35. 文書分類タスクで性能向上 タスク ⾔語 単語分割の 最適化なし 単語分割の 最適化あり 感情分析 中 92.79

    92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測 中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測 中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/1/5 博⼠論⽂発表会(平岡達也) 36 F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05) Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ • ⽂書分類モデルのエンコーダーはBiLSTM 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  36. 単語分割の更新のみでも性能が向上 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM

    N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% 損 失 関 数 2022/1/5 博⼠論⽂発表会(平岡達也) 37 • 単語分割以外のパラメータを固定して学習 →学習できるのは単語分割器(Neural Unigram LM)のみ 固定 ⽂ベクトル MLP 固定 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  37. 本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 39 導⼊ 背景 Approach 1 Approach 2

    分析 □ □ □ □ まとめ ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得
  38. 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割

    × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ !!! !!" !!# !! ℒ! 損 失 関 数 MLP ℒ! が⼩さくなる単語分割に⾼ い確率を与えるように更新 Approach 1の問題点 2022/1/5 博⼠論⽂発表会(平岡達也) 41 Approach 1 ⽂ベクトルの計算が必須 →⽂書分類タスクなどに限定 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 後段モデル
  39. 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割

    × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ !!! !!" !!# !! ℒ! 損 失 関 数 MLP ℒ! が⼩さくなる単語分割に⾼ い確率を与えるように更新 Approach 1 後段モデル Approach 1の問題点 2022/1/5 博⼠論⽂発表会(平岡達也) 42 ⽂ベクトルの計算が必須 →⽂書分類タスクなどに限定 後段モデルの内部に埋め込む必要がある →スケーラビリティが低い 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  40. 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割

    × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ !!! !!" !!# !! ℒ! 損 失 関 数 MLP ℒ! が⼩さくなる単語分割に⾼ い確率を与えるように更新 Approach 1 後段モデル Approach 1の問題点 2022/1/5 博⼠論⽂発表会(平岡達也) 43 ⽂ベクトルの計算が必須 →⽂書分類タスクなどに限定 後段モデルの内部に埋め込む必要がある →スケーラビリティが低い 様々な後段タスク・後段モデルに適⽤可能な単語分割の最適化⼿法は存在していない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  41. 基本戦略 • 適切な単語分割:後段モデルの損失が最も低くなる単語分割 • 後段モデルの構造やパラメータ,後段タスクの性質に依存 2022/1/5 博⼠論⽂発表会(平岡達也) 44 法改正反対 法/改/正/反対

    正解ラベル: Negative 0.69 後 段 モ デ ル 損 失 関 数 * 後段タスクが感情分析の場合 損失値 LSTM⽂書分類器など 交差エントロピー誤差など 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  42. 法/改正/反対 0.22 基本戦略 • 適切な単語分割:後段モデルの損失が最も低くなる単語分割 • 後段モデルの構造やパラメータ,後段タスクの性質に依存 2022/1/5 博⼠論⽂発表会(平岡達也) 45

    複数の単語分割候補 法改正反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.69 0.91 後 段 モ デ ル 損 失 関 数 * 後段タスクが感情分析の場合 LSTM⽂書分類器など 交差エントロピー誤差など 損失値 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  43. 基本戦略 • 適切な単語分割:後段モデルの損失が最も低くなる単語分割 • 後段モデルの構造やパラメータ,後段タスクの性質に依存 2022/1/5 博⼠論⽂発表会(平岡達也) 46 複数の単語分割候補 損失値が最も低くなる

    単語分割を採⽤したい →後段モデルの損失を 利⽤した単語分割器の学習 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後 段 モ デ ル 損 失 関 数 * 後段タスクが感情分析の場合 LSTM⽂書分類器など 交差エントロピー誤差など 損失値 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  44. 単語分割器の学習 • 単語分割器としてニューラルユニグラム⾔語モデルを⽤いる • 単語分散表現から単語の確率𝑝(𝑤)を計算 2022/1/5 博⼠論⽂発表会(平岡達也) 47 法改正反対 法/改正/反対

    法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後 段 モ デ ル 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 単語分割の確率で損失に重み付け * 重みの総和は1 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  45. 単語分割器の学習 • 単語分割器としてニューラルユニグラム⾔語モデルを⽤いる • 単語分散表現から単語の確率𝑝(𝑤)を計算 2022/1/5 博⼠論⽂発表会(平岡達也) 48 法改正反対 法/改正/反対

    法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後 段 モ デ ル 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  46. 単語分割器の学習 • 単語分割器としてニューラルユニグラム⾔語モデルを⽤いる • 単語分散表現から単語の確率𝑝(𝑤)を計算 2022/1/5 博⼠論⽂発表会(平岡達也) 49 法改正反対 法/改正/反対

    法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後 段 モ デ ル 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 この損失への誤差逆伝播で LMと後段モデルを同時に更新 →損失が⼩さい単語分割の 確率が上昇するように更新 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 勾配が計算できる
  47. 単語分割器の学習 • 単語分割器としてニューラルユニグラム⾔語モデルを⽤いる • 単語分散表現から単語の確率𝑝(𝑤)を計算 2022/1/5 博⼠論⽂発表会(平岡達也) 50 法改正反対 法/改正/反対

    法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後 段 モ デ ル 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け この損失への誤差逆伝播で LMと後段モデルを同時に更新 →損失が⼩さい単語分割の 確率が上昇するように更新 後段モデルと損失関数は 何でも良いので タスクやモデルを選ばない * 重みの総和は1 勾配が計算できる 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  48. 後段モデルの学習 • 最終的なlossから後段モデルを学習するのは困難 2022/1/5 博⼠論⽂発表会(平岡達也) 51 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対

    正解ラベル: Negative 0.22 0.69 0.91 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 後 段 モ デ ル 更新には計算グラフを保持したまま N個の後段モデルの計算が必要 →後段モデルが巨⼤な場合は学習不可能 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 勾配が計算できる
  49. 正解ラベル: Negative 更新には計算グラフを保持したまま N個の後段モデルの前向き計算が必要 →後段モデルが巨⼤な場合は学習不可能 後段モデルの学習 • 最終的なlossから後段モデルを学習するのは困難 • サブワード正則化を⽤いた学習により解決

    2022/1/5 博⼠論⽂発表会(平岡達也) 52 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 0.22 0.69 0.91 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 後 段 モ デ ル ランダムに選択した単語分割による lossだけで後段モデルを更新 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 勾配が計算できる
  50. 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後

    段 モ デ ル 損 失 関 数 Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 勾配が計算できる 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ !!! !!" !!# !! ℒ! 損 失 関 数 MLP ℒ! が⼩さくなる単語分割に⾼ い確率を与えるように更新 Approach 1 vs. 2: 構造的比較 2022/1/5 博⼠論⽂発表会(平岡達也) 53 Approach 1 Approach 2 後段モデル ⽂ベクトル(後段モデルの内部) →スケーラビリティ👎 損失値(後段モデルの外部) →スケーラビリティ👍 単語分割確率の重み付けを⾏う箇所 単語分割確率の重み付けを⾏う箇所 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  51. 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後

    段 モ デ ル 損 失 関 数 Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 勾配が計算できる 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ !!! !!" !!# !! ℒ! 損 失 関 数 MLP ℒ! が⼩さくなる単語分割に⾼ い確率を与えるように更新 Approach 1 Approach 2 後段モデル Approach 1 vs. 2: 構造的比較 2022/1/5 博⼠論⽂発表会(平岡達也) 54 ⽂ベクトル(後段モデルの内部) →スケーラビリティ👎 N-best単語分割 損失値(後段モデルの外部) →スケーラビリティ👍 サンプリングされた1つの単語分割 単語分割確率の重み付けを⾏う箇所 単語分割確率の重み付けを⾏う箇所 後段モデルの学習に使⽤する⼊⼒ 後段モデルの学習に使⽤する⼊⼒ 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  52. 文書分類タスクで性能向上 • Approach 2は7/10データセットでApproach 1の数値を上回る • Approach1, 2の間に統計的有意差はなし タスク ⾔語

    単語分割の 最適化なし Approach1 Approach2 感情分析 中 92.79 92.93 93.06 ⽇ 86.51 87.39 87.27 英 77.31 79.04 78.63 レビューのジャンル予測 中 47.95 48.22 48.41 ⽇ 47.86 50.21 50.79 英 71.19 71.88 71.83 レビューのレート予測 中 49.41 49.63 49.76 ⽇ 52.30 53.19 53.37 英 67.53 67.68 67.90 SNLI 英 76.75 77.04 77.05 2022/1/5 博⼠論⽂発表会(平岡達也) 55 Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)
  53. 文書分類タスクで性能向上 • Approach 2は7/10データセットでApproach 1の数値を上回る • Approach1, 2の間に統計的有意差はなし タスク ⾔語

    単語分割の 最適化なし Approach1 Approach2 感情分析 中 92.79 92.93 93.06 ⽇ 86.51 87.39 87.27 英 77.31 79.04 78.63 レビューのジャンル予測 中 47.95 48.22 48.41 ⽇ 47.86 50.21 50.79 英 71.19 71.88 71.83 レビューのレート予測 中 49.41 49.63 49.76 ⽇ 52.30 53.19 53.37 英 67.53 67.68 67.90 SNLI 英 76.75 77.04 77.05 2022/1/5 博⼠論⽂発表会(平岡達也) 56 Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)
  54. 文書分類タスクで性能向上 • Approach 2は7/10データセットでApproach 1の数値を上回る • Approach1, 2の間に統計的有意差はなし タスク ⾔語

    単語分割の 最適化なし Approach1 Approach2 感情分析 中 92.79 92.93 93.06 ⽇ 86.51 87.39 87.27 英 77.31 79.04 78.63 レビューのジャンル予測 中 47.95 48.22 48.41 ⽇ 47.86 50.21 50.79 英 71.19 71.88 71.83 レビューのレート予測 中 49.41 49.63 49.76 ⽇ 52.30 53.19 53.37 英 67.53 67.68 67.90 SNLI 英 76.75 77.04 77.05 2022/1/5 博⼠論⽂発表会(平岡達也) 57 Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)
  55. 単語分割の更新のみでも性能が向上 2022/1/5 博⼠論⽂発表会(平岡達也) 58 • 単語分割以外のパラメータを固定して学習 →学習できるのは単語分割器(Neural Unigram LM)のみ 導⼊

    背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 勾配が計算できる 後 段 モ デ ル 固定
  56. 単語分割の更新のみでも性能が向上 • Approach1, 2ともに単語分割の更新が性能の向上に寄与 • ⽇本語感情分析データセットで実験 2022/1/5 博⼠論⽂発表会(平岡達也) 59 0

    2 4 6 8 10 -25 -20 -15 -10 -5 0 1 2 3 4 5 6 7 8 9 10 Valid F1% Diff. Loss Diff. Epoch Loss-Diff (OpTok) Loss-Diff (OpTok4AT) F1-Diff(OpTok) F1-Diff(OpTok4AT) 単語分割の更新のみで 検証データの性能が向上 単語分割の更新のみで 学習データの損失が低下 0 1 2 3 4 5 6 7 8 9 (Approach1) (Approach1) (Approach2) (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  57. 単語分割の更新のみでも性能が向上 • Approach1, 2ともに単語分割の更新が性能の向上に寄与 • ⽇本語感情分析データセットで実験 2022/1/5 博⼠論⽂発表会(平岡達也) 60 単語分割の更新のみで

    検証データの性能が向上 単語分割の更新のみで 学習データの損失が低下 更新初期に Approach1, 2で 振る舞いに差 0 1 2 3 4 5 6 7 8 9 (Approach1) (Approach1) (Approach2) (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  58. 機械翻訳でも性能向上に寄与 • 機械翻訳⼿法: Transformer ソース側の単語分割の最適化 ターゲット側の単語分割の最適化 データセット ⾔語対 なし あり

    なし あり なし なし あり あり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 2022/1/5 博⼠論⽂発表会(平岡達也) 61 SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  59. 機械翻訳でも性能向上に寄与 • 機械翻訳⼿法: Transformer データセット ⾔語対 なし あり なし あり

    なし なし あり あり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 例:ソース側の単語分割 のみを提案⼿法で最適化 2022/1/5 博⼠論⽂発表会(平岡達也) 62 ソース側の単語分割の最適化 ターゲット側の単語分割の最適化 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004
  60. 機械翻訳でも性能向上に寄与 • 機械翻訳⼿法: Transformer ※ベースラインを超える数値 データセット ⾔語対 なし あり なし

    あり なし なし あり あり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 例:ソース側の単語分割 のみを提案⼿法で最適化 ベースライン 2022/1/5 博⼠論⽂発表会(平岡達也) 63 ソース側の単語分割の最適化 ターゲット側の単語分割の最適化 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004
  61. ベースライン 機械翻訳でも性能向上に寄与 • 機械翻訳⼿法: Transformer ※ベースラインを超える数値 データセット ⾔語対 なし あり

    なし あり なし なし あり あり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 ターゲット側に提案⼿法を ⽤いると性能が⾼い傾向がある 例:ソース側の単語分割 のみを提案⼿法で最適化 2022/1/5 博⼠論⽂発表会(平岡達也) 64 ソース側の単語分割の最適化 ターゲット側の単語分割の最適化 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004
  62. SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004 ベースライン 機械翻訳でも性能向上に寄与 •

    機械翻訳⼿法: Transformer ※ベースラインを超える数値 データセット ⾔語対 なし あり なし あり なし なし あり あり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 例:ソース側の単語分割 のみを提案⼿法で最適化 ターゲット側に提案⼿法を ⽤いると性能が⾼い傾向がある 両側に提案⼿法を⽤いると 性能は低め →学習が安定しないためか 2022/1/5 博⼠論⽂発表会(平岡達也) 65 ソース側の単語分割の最適化 ターゲット側の単語分割の最適化 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  63. モジュールごとに学習すると性能向上 • ソース側・ターゲット側の単語分割の同時最適化は難しい? • ⽚側ずつ最適化することで性能は向上するか • ソース側から順に最適化すると性能が向上 • ソース側の単語分割は最適化によって⼤きく変わるため, 先に決定しておくことで性能が安定すると⾒られる

    2022/1/5 博⼠論⽂発表会(平岡達也) 66 ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  64. モジュールごとに学習すると性能向上 • ソース側・ターゲット側の単語分割の同時最適化は難しい? • ⽚側ずつ最適化することで性能は向上するか • ソース側から順に最適化すると性能が向上 • ソース側の単語分割は最適化によって⼤きく変わるため, 先に決定しておくことで性能が安定すると⾒られる

    2022/1/5 博⼠論⽂発表会(平岡達也) 67 ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 ⼀つ前のスライドの結果 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  65. モジュールごとに学習すると性能向上 • ソース側・ターゲット側の単語分割の同時最適化は難しい? • ⽚側ずつ最適化することで性能は向上するか • ソース側から順に最適化すると性能が向上 • ソース側の単語分割は最適化によって⼤きく変わるため, 先に決定しておくことで性能が安定すると⾒られる

    2022/1/5 博⼠論⽂発表会(平岡達也) 68 ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 ⼀つ前のスライドの結果 前半50epoch: ソース側 後半50epoch: ターゲット側 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  66. モジュールごとに学習すると性能向上 • ソース側・ターゲット側の単語分割の同時最適化は難しい? • ⽚側ずつ最適化することで性能は向上するか • ソース側から順に最適化すると性能が向上 • ソース側の単語分割は最適化によって⼤きく変わるため, 先に決定しておくことで性能が安定すると⾒られる

    2022/1/5 博⼠論⽂発表会(平岡達也) 69 ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 ⼀つ前のスライドの結果 前半50epoch: ソース側 後半50epoch: ターゲット側 前半50epoch: ターゲット側 後半50epoch: ソース側 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  67. モジュールごとに学習すると性能向上 • ソース側・ターゲット側の単語分割の同時最適化は難しい? • ⽚側ずつ最適化することで性能は向上するか • ソース側から順に最適化すると性能が向上 • ソース側の単語分割は最適化によって⼤きく変わるため, 先に決定しておくことで性能が安定すると⾒られる

    2022/1/5 博⼠論⽂発表会(平岡達也) 70 ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 ⼀つ前のスライドの結果 前半50epoch: ソース側 後半50epoch: ターゲット側 前半50epoch: ターゲット側 後半50epoch: ソース側 ミニバッチごとに ソース側・ターゲット側を ランダムに選択して学習 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  68. 本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 71 導⼊ 背景 Approach 1 Approach 2

    分析 ▪ □ □ □ まとめ ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得
  69. 後処理としての単語分割モデルの最適化 • 学習済みの後段モデルに対して,単語分割モデルだけを最適化 • 後段モデルが学習済みかつ固定されていても有効であることを確認 2022/1/5 博⼠論⽂発表会(平岡達也) 72 法改正反対 法/改正/反対

    法/改/正/反対 法/改/正反対 0.22 0.69 0.91 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss * 重みの総和は1 ⼀般的な⽅法(=単語分割の最適化なし) で学習し,パラメータを固定して使⽤ 後 段 モ デ ル 導⼊ 背景 Approach 1 Approach 2 分析 ▪ □ □ □ まとめ
  70. 後処理としての単語分割モデルの最適化 • 学習済みの後段モデルであっても,性能の向上が⾒られる • ⼀般的な⽅法で学習したモデルでも,提案⼿法によって単語分割の 最適化のみで更なる性能向上が得られる可能性を⽰唆 2022/1/5 博⼠論⽂発表会(平岡達也) 73 単語分割のみ最適化

    (5epoch) タスク データセット 最適化なし Approach1 Approach2 感情分析 Weibo (Zh) 92.69 93.08 92.99 (F1値) Twitter(Ja) 85.88 86.23 86.28 Twitter(En) 77.21 77.41 77.77 機械翻訳 Vi-En 28.82 - 28.91 (BLEU) En-Vi 30.48 - 30.60 Zh-En 21.55 - 21.82 En-Zh 14.57 - 14.83 学習済みモデルを固定して 単語分割モデルのみを最適化 導⼊ 背景 Approach 1 Approach 2 分析 ▪ □ □ □ まとめ
  71. 本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 74 導⼊ 背景 Approach 1 Approach 2

    分析 □ ▪ □ □ まとめ ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得
  72. 最適化対象とは異なるタスクでの評価 • ジャンル予測・レート予測タスクは同⼀のコーパスから作成 • 最適化された単語分割がタスクに特化しているかを確認 2022/1/5 博⼠論⽂発表会(平岡達也) 75 E-commerce コーパス

    (Amazon, 楽天, JD.com) ジャンル予測タスク レート予測タスク ジャンル予測タスク 提案⼿法 単語分割の最適化 提案⼿法 単語分割の最適化 最適化したタスクとは 異なるタスクに単語分割を利⽤ →性能が下がるはず 導⼊ 背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ
  73. 最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会(平岡達也) 76

    単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05) (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ
  74. 最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会(平岡達也) 77

    単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 ジャンル予測タスクで 学習を⾏った後段モデルの性能 (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)
  75. 最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会(平岡達也) 78

    単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 ジャンル予測タスクで 学習を⾏った後段モデルの性能 ジャンル予測に最適化した 単語分割をジャンル予測で評価 (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)
  76. F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05) 最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上

    2022/1/5 博⼠論⽂発表会(平岡達也) 79 単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 ジャンル予測タスクで 学習を⾏った後段モデルの性能 ジャンル予測に最適化した 単語分割をジャンル予測で評価 レート予測に最適化した 単語分割をジャンル予測で評価 (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ
  77. 最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会(平岡達也) 80

    単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)
  78. 最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会(平岡達也) 81

    単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)
  79. 最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会(平岡達也) 82

    単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)
  80. 本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 83 導⼊ 背景 Approach 1 Approach 2

    分析 □ □ ▪ □ まとめ ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得
  81. タスクごとに単語分割は変わるか? • ジャンル予測・レート予測タスクは同⼀のコーパスから作成 • 同じ⽂の単語分割が,タスクごとに変化しているかを確認 2022/1/5 博⼠論⽂発表会(平岡達也) 84 E-commerce コーパス

    (Amazon, 楽天, JD.com) ジャンル予測タスク レート予測タスク 提案⼿法 提案⼿法 単語分割の最適化 単語分割の最適化 異なる単語分割を 獲得しているはず 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ
  82. タスクに応じた単語分割を獲得(日) ⼿法 単語分割 最適化なし ⾹りは すき だけど 、 痛 んだ

    髪に は全然 効果なし 。 ジャンル予測タスクに最適化(正解:美容・コスメ・⾹⽔) Approach 1 ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。 Approach 2 ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。 レート予測タスクに最適化(正解:2/5) Approach 1 ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。 Approach 2 ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。 2022/1/5 博⼠論⽂発表会(平岡達也) 85 ジャンル予測:商品のジャンルに関わる単語を切り出す レート予測 :品質や印象に関わる単語を切り出す 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ
  83. タスクに応じた単語分割を獲得(中) ⼿法 単語分割 最適化なし 东੢ ඇৗෆ޷  ׬શ ෆ๷׈ 

    ジャンル予測タスクに最適化(正解:家居⽣活) Approach 1 东੢ ඇৗෆ޷  ׬શෆ ๷׈  Approach 2 东੢ ඇৗෆ޷  ׬શෆ ๷׈  レート予測タスク(正解:1/5) Approach 1 东੢ ඇৗ ෆ޷  ׬શ ෆ๷׈  Approach 2 东੢ ඇৗ ෆ޷  ׬શ ෆ๷׈  2022/1/5 博⼠論⽂発表会(平岡達也) 86 ジャンル予測:商品のジャンルに関わる単語を切り出す レート予測 :品質や印象に関わる単語を切り出す 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ
  84. タスクに応じた単語分割を獲得(英) ⼿法 単語分割 最適化なし I like to listen to CDs

    when traveling and this is a one of my favorites . ジャンル予測タスクに最適化(正解:CDs and Vinyl) Approach 1 I like to listen to CD s when travel ing and this is a one of my favorites . Approach 2 I like to listen to CD s when traveling and this is a one of my favorites . レート予測タスクに最適化(正解:5/5) Approach 1 I like to listen to CDs when traveling and this is a one of my favorite s . Approach 2 I like to listen to CDs when traveling and this is a one of my favorites . 2022/1/5 博⼠論⽂発表会(平岡達也) 87 ジャンル予測:商品のジャンルに関わる単語を切り出す レート予測 :品質や印象に関わる単語を切り出す • travel/ing • 提案⼿法は⽂脈によって単語分割を変えられない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ
  85. タスクごとに単語分割の細かさが異なる 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ⾔語 タスク Approach 1 Approach 2 中

    ジャンル予測 1.5405 1.5137 レート予測 1.4249 1.3807 ⽇ ジャンル予測 1.5205 1.5834 レート予測 1.3224 1.2742 英 ジャンル予測 1.0620 1.0845 レート予測 1.0415 1.0305 2022/1/5 博⼠論⽂発表会(平岡達也) 88 • 全体的に提案⼿法によって単語分割は細かくなる • レート予測よりジャンル予測のほうが単語分割は細かくなる • ジャンル数が多く,ラベルに特徴的な単語が多いため • 英語の単語分割の細かさは⼤きく変わらない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている
  86. タスクごとに単語分割の細かさが異なる 2022/1/5 博⼠論⽂発表会(平岡達也) 89 • 全体的に提案⼿法によって単語分割は細かくなる • レート予測よりジャンル予測のほうが単語分割は細かくなる • ジャンル数が多く,ラベルに特徴的な単語が多いため

    • 英語の単語分割の細かさは⼤きく変わらない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ⾔語 タスク Approach 1 Approach 2 中 ジャンル予測 1.5405 1.5137 レート予測 1.4249 1.3807 ⽇ ジャンル予測 1.5205 1.5834 レート予測 1.3224 1.2742 英 ジャンル予測 1.0620 1.0845 レート予測 1.0415 1.0305 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている
  87. タスクごとに単語分割の細かさが異なる 2022/1/5 博⼠論⽂発表会(平岡達也) 90 • 全体的に提案⼿法によって単語分割は細かくなる • レート予測よりジャンル予測のほうが単語分割は細かくなる • ジャンル数が多く,ラベルに特徴的な単語が多いため

    • 英語の単語分割の細かさは⼤きく変わらない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ⾔語 タスク Approach 1 Approach 2 中 ジャンル予測 1.5405 1.5137 レート予測 1.4249 1.3807 ⽇ ジャンル予測 1.5205 1.5834 レート予測 1.3224 1.2742 英 ジャンル予測 1.0620 1.0845 レート予測 1.0415 1.0305 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている
  88. 獲得された単語分割の比較(機械翻訳) • ソース側の分割 • 提案⼿法は接尾辞などを細かく分割する傾向 • ターゲット側の分割 • 主要な接尾辞(-edなど)の分割を変更する程度 最適化なし

    Student s don ' t have long hours of learning . 最適化あり Student s do n ' t hav e long hour s of learning . ターゲット⽂ 学生 在 校 学习 时间 不 长 。 ソース⽂ 引力 与 其它 力 分 隔 开来 最適化なし Gra vity separate d away from the other force s . 最適化あり Gra vity separat ed away from the other force s . 2022/1/5 博⼠論⽂発表会(平岡達也) 91 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ
  89. 獲得された単語分割の比較(機械翻訳) • ソース側の分割 • 提案⼿法は接尾辞などを細かく分割する傾向 • ターゲット側の分割 • 主要な接尾辞(-edなど)の分割を変更する程度 最適化なし

    Student s don ' t have long hours of learning . 最適化あり Student s do n ' t hav e long hour s of learning . ターゲット⽂ 学生 在 校 学习 时间 不 长 。 ソース⽂ 引力 与 其它 力 分 隔 开来 最適化なし Gra vity separate d away from the other force s . 最適化あり Gra vity separat ed away from the other force s . 提案⼿法の系列⻑は “最適化なし”の1.35倍 2022/1/5 博⼠論⽂発表会(平岡達也) 92 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ
  90. 獲得された単語分割の比較(機械翻訳) • ソース側の分割 • 提案⼿法は接尾辞などを細かく分割する傾向 • ターゲット側の分割 • 主要な接尾辞(-edなど)の分割を変更する程度 最適化なし

    Student s don ' t have long hours of learning . 最適化あり Student s do n ' t hav e long hour s of learning . ターゲット⽂ 学生 在 校 学习 时间 不 长 。 ソース⽂ 引力 与 其它 力 分 隔 开来 最適化なし Gra vity separate d away from the other force s . 最適化あり Gra vity separat ed away from the other force s . 提案⼿法の系列⻑は “最適化なし”の1.35倍 提案⼿法の系列⻑は “最適化なし”の0.99倍 2022/1/5 博⼠論⽂発表会(平岡達也) 93 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ
  91. 獲得された単語分割の比較(機械翻訳) • ソース側の分割 • 提案⼿法は接尾辞などを細かく分割する傾向 • ターゲット側の分割 • 主要な接尾辞(-edなど)の分割を変更する程度 最適化なし

    Student s don ' t have long hours of learning . 最適化あり Student s do n ' t hav e long hour s of learning . ターゲット⽂ 学生 在 校 学习 时间 不 长 。 ソース⽂ 引力 与 其它 力 分 隔 开来 最適化なし Gra vity separate d away from the other force s . 最適化あり Gra vity separat ed away from the other force s . 系列⻑が⻑くなるとデコードで不利になるためか 提案⼿法の系列⻑は “最適化なし”の1.35倍 提案⼿法の系列⻑は “最適化なし”の0.99倍 2022/1/5 博⼠論⽂発表会(平岡達也) 94 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ
  92. 言語・モジュールごとに単語分割の細かさが異なる • ソース側は細かく,ターゲット側は粗く学習 • 細かい系列(多くの短いトークンを含む)を出⼒するのは難しいため • 中国語はターゲット側も細かくなっている • ソース側と系列の細かさを揃えるためか 2022/1/5

    博⼠論⽂発表会(平岡達也) 95 (ソース側の⻑さ) (ターゲット側の⻑さ) 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ソース側の最適化 あり なし ターゲット側の最適化 なし あり ドイツ語 → 英語 2.5353 0.9992 英語 → ドイツ語 1.3809 0.9996 ベトナム語 → 英語 1.5320 0.9993 英語 → ベトナム語 1.4650 0.9999 中国語 → 英語 1.5175 0.9994 英語 → 中国語 1.3516 1.4713 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている
  93. 2022/1/5 博⼠論⽂発表会(平岡達也) 96 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ソース側の最適化 あり なし ターゲット側の最適化 なし

    あり ドイツ語 → 英語 2.5353 0.9992 英語 → ドイツ語 1.3809 0.9996 ベトナム語 → 英語 1.5320 0.9993 英語 → ベトナム語 1.4650 0.9999 中国語 → 英語 1.5175 0.9994 英語 → 中国語 1.3516 1.4713 (ソース側の⻑さ) (ターゲット側の⻑さ) 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている 言語・モジュールごとに単語分割の細かさが異なる • ソース側は細かく,ターゲット側は粗く学習 • 細かい系列(多くの短いトークンを含む)を出⼒するのは難しいため • 中国語はターゲット側も細かくなっている • ソース側と系列の細かさを揃えるためか
  94. 2022/1/5 博⼠論⽂発表会(平岡達也) 97 (ソース側の⻑さ) (ターゲット側の⻑さ) 導⼊ 背景 Approach 1 Approach

    2 分析 □ □ ▪ □ まとめ 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ソース側の最適化 あり なし ターゲット側の最適化 なし あり ドイツ語 → 英語 2.5353 0.9992 英語 → ドイツ語 1.3809 0.9996 ベトナム語 → 英語 1.5320 0.9993 英語 → ベトナム語 1.4650 0.9999 中国語 → 英語 1.5175 0.9994 英語 → 中国語 1.3516 1.4713 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている 言語・モジュールごとに単語分割の細かさが異なる • ソース側は細かく,ターゲット側は粗く学習 • 細かい系列(多くの短いトークンを含む)を出⼒するのは難しいため • 中国語はターゲット側も細かくなっている • ソース側と系列の細かさを揃えるためか
  95. 2022/1/5 博⼠論⽂発表会(平岡達也) 98 (ソース側の⻑さ) (ターゲット側の⻑さ) 導⼊ 背景 Approach 1 Approach

    2 分析 □ □ ▪ □ まとめ 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ソース側の最適化 あり なし ターゲット側の最適化 なし あり ドイツ語 → 英語 2.5353 0.9992 英語 → ドイツ語 1.3809 0.9996 ベトナム語 → 英語 1.5320 0.9993 英語 → ベトナム語 1.4650 0.9999 中国語 → 英語 1.5175 0.9994 英語 → 中国語 1.3516 1.4713 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている 言語・モジュールごとに単語分割の細かさが異なる • ソース側は細かく,ターゲット側は粗く学習 • 細かい系列(多くの短いトークンを含む)を出⼒するのは難しいため • 中国語はターゲット側も細かくなっている • ソース側と系列の細かさを揃えるためか
  96. 本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 99 導⼊ 背景 Approach 1 Approach 2

    分析 □ □ □ ▪ まとめ ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得
  97. マルチタスク学習での単語分割最適化 • ジャンル予測・レート予測タスクは同⼀のコーパスから作成 • 同じ⽂を⽤いたマルチタスク学習で単語分割を最適化 2022/1/5 博⼠論⽂発表会(平岡達也) 100 E-commerce コーパス

    (Amazon, 楽天, JD.com) ジャンル予測タスク レート予測タスク 提案⼿法 単語分割の最適化 単語分割の最適化 どのような 単語分割になるか? 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ▪ まとめ
  98. マルチタスク学習での単語分割最適化 • シングルタスク学習と⽐べると性能低下 • ジャンル・レート予測はあまり関係がないため • 提案⼿法はマルチタスク学習でも性能向上に寄与 2022/1/5 博⼠論⽂発表会(平岡達也) 101

    評価タスク ⾔語 単語分割の 最適化なし Approach1 Approach2 レビューのジャンル予測 中 46.32 (47.95) 46.64 (48.22) 47.60 (48.41) ⽇ 47.11 (47.86) 48.00 (50.21) 49.87 (50.79) 英 70.81 (71.19) 70.61 (71.88) 71.46 (71.83) レビューのレート予測 中 46.77 (49.41) 47.19 (49.63) 48.15 (49.76) ⽇ 51.23 (52.30) 51.08 (53.19) 52.21 (53.37) 英 65.67 (67.53) 65.79 (67.68) 65.67 (67.90) F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定, p<0.05) 括弧内の数値はシングルタスク設定での性能 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ▪ まとめ
  99. マルチタスク学習での単語分割最適化 • シングルタスク学習と⽐べると性能低下 • ジャンル・レート予測はあまり関係がないため • 提案⼿法はマルチタスク学習でも性能向上に寄与 2022/1/5 博⼠論⽂発表会(平岡達也) 102

    評価タスク ⾔語 単語分割の 最適化なし Approach1 Approach2 レビューのジャンル予測 中 46.32 (47.95) 46.64 (48.22) 47.60 (48.41) ⽇ 47.11 (47.86) 48.00 (50.21) 49.87 (50.79) 英 70.81 (71.19) 70.61 (71.88) 71.46 (71.83) レビューのレート予測 中 46.77 (49.41) 47.19 (49.63) 48.15 (49.76) ⽇ 51.23 (52.30) 51.08 (53.19) 52.21 (53.37) 英 65.67 (67.53) 65.79 (67.68) 65.67 (67.90) 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ▪ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定, p<0.05) 括弧内の数値はシングルタスク設定での性能 オレンジ背景は単語分割の最適化なしよりも⾼い数値
  100. マルチタスク学習で得られた単語分割 2022/1/5 博⼠論⽂発表会(平岡達也) 103 ⼿法 単語分割 最適化なし ⾹りは すき だけど

    、 痛 んだ 髪に は全然 効果なし 。 ジャンル予測タスクに最適化(正解:美容・コスメ・⾹⽔) Approach 1 ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。 Approach 2 ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。 レート予測タスクに最適化(正解:2/5) Approach 1 ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。 Approach 2 ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。 マルチタスクで最適化 Approach 1 ⾹り は すき だけど 、 痛 んだ 髪 には 全然 効果 なし 。 Approach 2 ⾹り は すき だけど 、 痛 んだ 髪 には 全然 効果 なし 。 ジャンル予測:商品のジャンルに関わる単語を切り出す レート予測 :品質や印象に関わる単語を切り出す • ジャンル・レート予測双⽅の性質を持つ単語分割を獲得 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ▪ まとめ
  101. 本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 104 導⼊ 背景 Approach 1 Approach 2

    分析 □ □ □ □ まとめ ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得
  102. 本研究の概要 • ⽬的: • 後段タスクに応じて適切な単語分割を探索し,⾃然⾔語処理タスクで の性能向上を⽬指す • 解決⽅策: • 単語分割と後段モデルを同時に最適化することで,

    後段タスクに応じた適切な単語分割を学習 • 貢献: • 後段モデルと単語分割を同時に最適化する初めての試みである • タスクやモデルに応じた単語分割を獲得できる⼿法を提案 • 複数のNLPタスクで性能向上に寄与する • NLP以外にも応⽤の余地あり • 天候やゲノムなどの(時)系列データ、画像の分割など 2022/1/5 博⼠論⽂発表会(平岡達也) 105 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
  103. 発表文献 • 申請論⽂ • Tatsuya Hiraoka, Sho Takase, Kei Uchiumi,

    Atsushi Keyaki, Naoaki Okazaki. Joint Optimization of Tokenization and Downstream Model. Findings of ACL-IJCNLP 2021, pages 244‒255 (double-column), August 2021. • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. テキストベクトルの重みづけを⽤いたタスクに対する単語分割の最 適化. ⾃然⾔語処理, Vol. 28, No. 2, pages 479-507 (シングルカラム), 2021年6⽉. • その他の主著論⽂ • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. 単語分割と後段モデルの損失値を⽤いた同時最適化. ⾃然⾔語処理, 29(1):to appear, 33 pages (シングルカラム), 2022年3⽉. • Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, Naoaki Okazaki. Recurrent Neural Hidden Markov Model for High-Order Transition. ACM TALLIP, 21(2): pages 1‒15 (double-column), March 2022. • Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, Naoaki Okazaki. Optimizing Word Segmentation for Downstream Task. Findings of EMNLP, pages 1341‒1351 (double-column), Association for Computational Linguistics, November 2020. • Tatsuya Hiraoka, Hiroyuki Shindo, Yuji Matsumoto. Stochastic Tokenization with a Language Model for Neural Text Classification. ACL, pages 1620‒1629 (double-column), July 2019. • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. 後段モデルの損失値を⽤いた単語分割のタスクへの最適化. ⾔語処 理学会第27回年次⼤会 (NLP2021), pages486‒491 (ダブルカラム), 2021年3⽉.(若⼿奨励賞) • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. RNNにより⾼次の依存を考慮したニューラル隠れマルコフモデル. ⾔語処理学会第26回年次⼤会 (NLP2020), pp. A4‒2 (4 pages,ダブルカラム), 茨城⼤学(茨城県), 2020年3⽉. • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. RNNによる遷移確率計算を⽤いた隠れマルコフモデル. 第242回⾃ 然⾔語処理研究会, 2019-NL-242(2), pp. 1‒6 (ダブルカラム), 奈良先端科学技術⼤学院⼤学(奈良県), 2019年10⽉. (若⼿奨励賞) 2022/1/5 博⼠論⽂発表会(平岡達也) 106
  104. 参考文献1 • Xu, Jia, et al. "Bayesian semi-supervised chinese word

    segmentation for statistical machine translation." Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). 2008. • Chang, Pi-Chuan, Michel Galley, and Christopher D. Manning. "Optimizing Chinese word segmentation for machine translation performance." Proceedings of the third workshop on statistical machine translation. 2008. • Nguyen, ThuyLinh, Stephan Vogel, and Noah A. Smith. "Nonparametric word segmentation for machine translation." Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010). 2010. • Domingo, Miguel, et al. "How Much Does Tokenization Affect Neural Machine Translation?." arXiv preprint arXiv:1812.08621 (2018). • Thamme Gowda and Jonathan May. 2020. Finding the optimal vocabulary size for neural machine transla- tion. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 3955‒3964, Online. Association for Computational Linguistics. • Taku Kudo. 2006. Mecab: Yet another part-of-speech and morphological analyzer. http://taku910.github.io/mecab/. • Morita, Hajime, Daisuke Kawahara, and Sadao Kurohashi. "Morphological analysis for unsegmented languages using recurrent neural network language model." Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015. • Kazuma Takaoka, Sorami Hisamoto, Noriko Kawa- hara, Miho Sakamoto, Yoshitaka Uchida, and Yuji Matsumoto. 2018. Sudachi: a japanese tokenizer for business. In Proceedings of the Eleventh International Conference on Language Resources and Eval- uation (LREC 2018), Paris, France. European Lan- guage Resources Association (ELRA). • Yang, Jie, Yue Zhang, and Fei Dong. "Neural Word Segmentation with Rich Pretraining." Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017. 2022/1/5 博⼠論⽂発表会(平岡達也) 107
  105. 参考文献2 • Deng Cai, Hai Zhao, Zhisong Zhang, Yuan Xin,

    Yongjian Wu, and Feiyue Huang. 2017. Fast and accurate neural word segmentation for chinese. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), volume 2, pages 608‒615. • Yang, Jie, Yue Zhang, and Shuailong Liang. "Subword Encoding in Lattice LSTM for Chinese Word Segmentation." Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019. • Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016. Neural machine translation of rare words with subword units. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pages P1715‒1725. • Kudo, Taku, and John Richardson. "Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing." arXiv preprint arXiv:1808.06226 (2018). • Xinchi Chen, Zhan Shi, Xipeng Qiu, and Xuanjing Huang. 2017. Dag-based long short-term memory for neural word segmentation. arXiv preprintarXiv:1707.00248. • Yue Zhang and Jie Yang. 2018. Chinese ner using lattice lstm. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1554‒1564. • Jie Yang, Yue Zhang, and Shuailong Liang. 2018. Subword encoding in lattice lstm for chinese word segmentation. arXiv preprint arXiv:1810.12594. • Taku Kudo. 2018. Subword regularization: Improving neural network translation models with multiple subword candidates. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 66‒75. • Ivan Provilkov, Dmitrii Emelianenko, and Elena Voita. 2019. Bpe-dropout: Simple and effective subword regularization. arXiv preprint arXiv:1910.13267. 2022/1/5 博⼠論⽂発表会(平岡達也) 108
  106. 参考文献3 • Matt Post. A call for clarity in reporting

    BLEU scores. In Proceedings of the Third Conference on Machine Translation (WMT), pages 186‒191, 2018. • Philipp Koehn. Statistical significance tests for machine translation evaluation. In Proceedings of the 2004 conference on empirical methods in natural language processing, pages 388‒395, 2004. 2022/1/5 博⼠論⽂発表会(平岡達也) 109