Encoder 𝑿𝑡 𝑾𝑡−1 𝑪𝑡 Hierarchical Text Encoder 𝑾𝑡−2 𝑪𝑡−1 𝑯𝑡 𝑃(𝑾𝑡) Extended Attention Decoder Speech Encoder 𝑿𝑡−1 𝑯𝑡−1 𝑃(𝑾𝑡−1) 𝑪𝑡−2 𝑃(𝑾𝑡−2) 𝑃(𝑾𝑡|𝑾1, … , 𝑾𝑡−1, 𝑿𝑡, 𝜣) = ෑ 𝑛=1 𝑁𝑡 𝑃(𝑤𝑛 𝑡|𝑤1 𝑡, … , 𝑤𝑡−1 𝑡 , 𝑾1,..., 𝑾𝑡−1, 𝑿𝑡, 𝜣) モデル化 学習 (複数人会話データを用いた最適化) 𝜣 = arg min 𝜣 − 𝑑=1 𝐷 𝑡=1 𝑇𝑑 log 𝑃(𝑾𝑡|𝑾1, … , 𝑾𝑡−1, 𝑿𝑡, 𝜣) 音声をテキストに一気通貫で変換するEnd-to-End音声認識に対して、 会話コンテキストも考慮できるようにモデル化 [Masumura+ 2019] [Masumura+ 2019] Ryo Masumura, Tomihiro Tanaka, Takafumi Moriya, Yusuke Shinohara, Takanobu Oba, Yushi Aono, "Large Context End-to-End Automatic Speech Recognition via Extension of Hierarchical Recurrent Encoder-Decoder Models", In Proc. ICASSP, 2019