SNLP2020_mixtext

MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification
Jiaao Chen, Zichao Yang, Diyi Yang ACL 2020 発表者︓⾼瀬翔（東京⼯業⼤学） 2020/9/25 1 結果やモデルの図・表は論⽂より引⽤

概要 • Mixup [Zhang+ 17] を⾔語に拡張（TMix） – Mixup: 画像処理でのデータ拡張⼿法，⼊⼒と出⼒ラベルを混ぜ，新規の訓練事例とする
• Self-training でラベルなしデータにラベルを付与し学習データ増量 – Self-training と TMix をあわせたものが MixText • ⽂書分類で効果を確認 – ベースラインよりも性能は⾼い – 既存のデータ拡張よりも良いかは謎に思える – TMix の貢献が⼤きいかどうかも怪しい気が… • 論⽂内の主張がたまに⼤きすぎる気が… – 任意の⼿法に使⽤可能（ただし実験は⽂書分類のみ） – 無限に訓練データを増やせる 2 0.3 × + 0.7 × = 0.3 × リス + 0.7 × レッサーパンダ

TMix（連続値の学習データ拡張） • 隠れ層を混ぜ，混合したラベルを予測 3 エンコーダ（BERT）に⼊⼒， m 層⽬までそれぞれ計算する隠れ層を混ぜ，m + 1層⽬に⼊⼒
エンコーダの最終層まで計算 MLP でラベル予測混合したラベルを出⼒するよう学習

Self-training で学習データ拡張 4 ラウンドトリップ翻訳でラベルなしデータを増やす（例︓英 → 独 → 英）
ここの処理をずっと Back-translation と呼んでいるのが気になるが… 各データにラベルを付与して重み付き平均を計算分布をシャープに構築したデータをラベルつきデータと同等に教師データとして利⽤

実験設定 • ⽂書分類の4つのデータで実験 • BERT-base をベースに実装 • ⽐較⼿法 – BERT︓データ拡張なしの
fine-tuning – UDA︓BERT base + 教師なしデータ拡張 [Xie+ 19] でデータ拡張 5

結果 • 既存研究よりも良い 6

Ablation study • 要素を抜いていったときの正解率の変化 7 ラベルなしデータを抜いたときの性能低下が⼤きい TMix を⼊れた状態でラベルなしデータを抜いた
結果が⾒たいが……

まとめ • Mixup [Zhang+ 17] を⾔語に拡張（TMix） – エンコーダの隠れ層を混合 – ラベルを混合し，教師データとして利⽤
• Self-training でラベルなしデータにラベルを付与，学習データ増量 – ラウンドトリップ翻訳でラベルなし⼊⼒を増量 – ラベルなしデータにモデルの予測を付与 • ⽂書分類で効果を確認 – ベースラインよりも性能は⾼い – 既存のデータ拡張よりも良いかは謎に思える 8

SNLP2020_mixtext

SNLP2020_mixtext

Sho Takase

More Decks by Sho Takase

Featured

Transcript

MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification

概要 • Mixup [Zhang+ 17] を⾔語に拡張（TMix） – Mixup: 画像処理でのデータ拡張⼿法，⼊⼒と出⼒ラベルを混ぜ，新規の訓練事例とする

TMix（連続値の学習データ拡張） • 隠れ層を混ぜ，混合したラベルを予測 3 エンコーダ（BERT）に⼊⼒， m 層⽬までそれぞれ計算する隠れ層を混ぜ，m + 1層⽬に⼊⼒

Self-training で学習データ拡張 4 ラウンドトリップ翻訳でラベルなしデータを増やす（例︓英 → 独 → 英）

実験設定 • ⽂書分類の4つのデータで実験 • BERT-base をベースに実装 • ⽐較⼿法 – BERT︓データ拡張なしの

結果 • 既存研究よりも良い 6

Ablation study • 要素を抜いていったときの正解率の変化 7 ラベルなしデータを抜いたときの性能低下が⼤きい TMix を⼊れた状態でラベルなしデータを抜いた

まとめ • Mixup [Zhang+ 17] を⾔語に拡張（TMix） – エンコーダの隠れ層を混合 – ラベルを混合し，教師データとして利⽤