Hybrid Autoregressive Transducer [輪講発表資料]

Hybrid Autoregressive Transducer (HAT) [Variani, Rybach+ 2020] 京都大学音声メディア研究室 M1
渋谷和樹 1

E2E音声認識 E2Eモデルはシンプルで学習しやすいパラレルデータの収集が難しいため、外部言語モデルを組み合わせたい外部言語モデルの活用 ShallowFusion y = ∗ argmax
logP(y∣x) + logP (y) y ( LM ) E2Eモデル自体にも言語モデルが含まれてしまう（暗黙の言語モデル）暗黙の言語モデルによる評価スコアを取り除いて推論を行いたい ⇒Transducerアーキテクチャの利用 Introduction 2

Transducer 3

Transducer 特徴 E2E音声認識のアーキテクチャの一つ CTCと同様に事前のアライメントが不要 CTCと異なり、出力系列同士の関連性も考慮 (ラベル+ブランク)の事後確率を出力 y ~ 4

Transducer 内部言語モデル Transducerではエンコーダーに依存しない出力ラベルの事後確率（言語モデル確率）を計算できるから内部言語モデルスコアを計算する P(y∣y ) 0:u
logP (Y ) = ILM logP(y ∣y ) ∑ u=0 U−1 u+1 0:u 5

HAT 特徴 Transducerベースのアーキテクチャ非ブランクラベルのみの事後確率を計算できる正確な？言語モデル確率を計算できる 7

TransducerとHATの比較 HAT Transducer ネットワーク出力は言語モデル確率はブランクラベル以外の Softmaxで計算される s (
∣y ) t,u y ~ 0:u HAT ネットワーク出力は非ブランクラベルのスコアを含まない言語モデル確率はすべてのラベルの Softmaxで計算される s (y∣y ) t,u 0:u 8

結果 9

実験設定データセット: Google VoiceSearch Traffic 評価指標: WER アーキテクチャ: Encoder: 5layer,
2048cells/layerのLSTM Pred Net: 2layer, 256cells/layerのLSTM Joint Net: 1layerの線形層入力: 対数メルスペクトログラム結果 10

学習強制アライメントを行い、教師ラベル（文章）の音素列を得る各モデルは42種類の音素の事後確率を予測各モデル単体で学習を行う（学習時は外部言語モデルを利用しない）推論各モデルを音響モデルとして使用 WFSTとして発音辞書・外部言語モデルを組み合わせてデコーディング結果 11

各手法のデコード方法 Cross-Entropy CTC, RNN-T HAT 結果 = y ~∗
argmax λ log P(x ∣ ) + y ~ 1 (∏ t=1 T t y ~ t ) logP (B( )) LM y ~ = y ~∗ argmax λ logP ( ∣x) + y ~ 1 ′ y ~ logP (B( )) + LM y ~ λ v( ) 2 y ~ = y ~∗ argmax λ logP( ∣x) + y ~ 1 y ~ logP (B( )) − LM y ~ λ logP (B( )) 2 ILM y ~ 12

他手法との比較 2nd-pass: リスコアリングを行った場合の結果いずれのケースでも他手法より優れた性能を示した結果 13

結果内部言語モデルの学習状況の可視化 Prior cost: 各エポックごとの平均パープレキシティと解釈 MTL: Prior costを最小化するマルチタスク学習パープレキシティは一度下がり、徐々に増加音素認識では言語モデルは最適化されない？
学習初期は言語情報に重点を置いている？ − logP (y) ∣D∣ 1 ∑ y∈D ILM 14

結果内部言語モデルの寄与率とWER HAT 付近で最も良い性能ただのShallowFusionではなく、内部言語モデルの影響を取り除くことが重要 HAT+MTL Prior costを最小化しているが性能はあまり向上していない
よい内部言語モデルを構築することは重要ではないということ？ λ = 2 1 15

Pred Netへの入力長の影響入力系列長が長いほどパープレキシティは減少しているが、WERは変化していない系列が長いとExposure Biasの影響が大きくなるから？ Exposure Bias: 学習時はTeacherForcingを行うが、推論時は教師ラベルが存在しないこと結果 16

まとめ 17

E2Eモデルを音響モデルとして利用するためのアプローチであるHATを提案内部言語モデルのパープレキシティを評価できるようになった →外部言語モデルの必要性の判断基準となるまとめ 18

Hybrid Autoregressive Transducer [輪講発表資料]

Hybrid Autoregressive Transducer [輪講発表資料]

shibutani

More Decks by shibutani

Other Decks in Research

Featured

Transcript

Hybrid Autoregressive Transducer (HAT) [Variani, Rybach+ 2020] 京都大学音声メディア研究室 M1

E2E音声認識 E2Eモデルはシンプルで学習しやすいパラレルデータの収集が難しいため、外部言語モデルを組み合わせたい外部言語モデルの活用 ShallowFusion y = ∗ argmax

Transducer 3

Transducer 特徴 E2E音声認識のアーキテクチャの一つ CTCと同様に事前のアライメントが不要 CTCと異なり、出力系列同士の関連性も考慮 (ラベル+ブランク)の事後確率を出力 y ~ 4

Transducer 内部言語モデル Transducerではエンコーダーに依存しない出力ラベルの事後確率（言語モデル確率）を計算できるから内部言語モデルスコアを計算する P(y∣y ) 0:u

HAT 6

HAT 特徴 Transducerベースのアーキテクチャ非ブランクラベルのみの事後確率を計算できる正確な？言語モデル確率を計算できる 7

TransducerとHATの比較 HAT Transducer ネットワーク出力は言語モデル確率はブランクラベル以外の Softmaxで計算される s (

結果 9

実験設定データセット: Google VoiceSearch Traffic 評価指標: WER アーキテクチャ: Encoder: 5layer,

各手法のデコード方法 Cross-Entropy CTC, RNN-T HAT 結果 = y ~∗

他手法との比較 2nd-pass: リスコアリングを行った場合の結果いずれのケースでも他手法より優れた性能を示した結果 13

結果内部言語モデルの寄与率とWER HAT 付近で最も良い性能ただのShallowFusionではなく、内部言語モデルの影響を取り除くことが重要 HAT+MTL Prior costを最小化しているが性能はあまり向上していない

まとめ 17

E2Eモデルを音響モデルとして利用するためのアプローチであるHATを提案内部言語モデルのパープレキシティを評価できるようになった →外部言語モデルの必要性の判断基準となるまとめ 18