on Attention Weight Correction Using Word-level Confidence Measure Jennifer Santoso Takeshi Yamada University of Tsukuba Shoji Makino Waseda University Kenkichi Ishizuka Takekatsu Hiramura RevComm, Inc
Speech Emotion Recognition Combined with Acoustic-to-Word ASR [Feng+, 2020] ▪ 音声感情認識と、音声認識のモデルをEnd-to-endで結合して学習 ▪ 事前学習された音声認識モデルを利用し、感情音声データセットで、 音声感情認識-音声認識のマルチタスク学習でファインチューニング ◦ 感情音声に対してファインチューニングするために 大きな計算コストがかかる 12 FC with ReLU Concatenation Self-attention Mechanism Bi-LSTM ASR decoder with attention ASR encoder Self-attention Mechanism Bi-LSTM Acoustic features Word Emotion Class