ニューラル言語モデルとニューラル音声合成を用いた音響モデル用学習データの生成モデルの検討

Copyright©2018 NTT corp. All Rights Reserved. ニューラル言語モデルとニューラル音声合成を用いた音響モデル用学習データの生成モデルの検討日本電信電話株式会社 NTTメディアインテリジェンス研究所
増村亮, 井島勇祐, 小橋川哲, 青野裕司

Copyright©2018 NTT corp. All Rights Reserved. 本研究の概要 2  現状の到達点
 オリジナルデータから構築したニューラル音響モデルと比較して、提案モデルで生成したデータから構築したニューラル音響モデルは 7割程度の性能を達成 • それなりにうまくいっているとも見れるし、全然ダメとも見れる  生成のイメージ  ニューラル言語モデルで音素状態系列を生成し、ニューラル音声合成で音響特徴量系列を生成  音響モデル用学習データとは？  一般的なニューラル音響モデルの場合、音響特徴量系列とラベル系列(音素状態系列)の組の集合  音響モデル用学習データをランダムに生成可能な生成モデルを検討

Copyright©2018 NTT corp. All Rights Reserved. 3 本研究のモチベーション  実サービスのログによる音響モデル用学習データは、
個人情報等のプライバシー情報を含むため、限られた期日を超えたらデータを消去しなければならない  なぜ必要なのか？  セキュアなストレージに保存されることもしばしばあり、他の実データログと組み合わせた音響モデル学習も困難限られた日数(例えば90日)で消さなければならないサービスごとにセキュアなストレージが異なり、混ぜて学習が困難  オリジナルの音響モデル用学習データを完全に消去しても、永続的に音響モデルを学習できる環境の構築

Copyright©2018 NTT corp. All Rights Reserved. 4 本研究のアプローチ  モデルに変換すれば、個人を特定する情報は消える
音響モデル用学習データの生成モデルオリジナルの音響モデル用学習データ学習生成再構成した音響モデル用学習データ音響モデル学習音響モデル学習同等の性能が出れば、元のデータを消去しても、いつでも同等のモデルを学習可能これを精緻にモデル化したい  「同質」とは、生成したデータから学習した音響モデルが、元のデータから学習した音響モデルと同等の性能がでること  オリジナルデータと同質のデータを生成可能な生成モデルを構築できれば良いのでは？

Copyright©2018 NTT corp. All Rights Reserved. 5 音響モデル用学習データの定義  音響特徴量系列:
= {1 , … , }  音素状態系列: = {1 , … , }  対数メルフィルタバンク等の連続値ベクトル系列  状態クラスタリングにより事前に決定した状態共有トライフォンの離散シンボル系列  属性ラベル:  話者情報や話題情報などを表す離散シンボル (CSJであれば，A01F0001等の講演番号など)  音響モデル用データ: = { 1, 1, 1 , … , (, , )}  DNN-HMMハイブリッド型の音声認識システムで用いられるニューラル音響モデル用のデータを想定

Copyright©2018 NTT corp. All Rights Reserved. 6 生成過程のモデル化  入力は
= a , s , x 、出力は = 1,1, 1 , … , , , ~(|a ) ~(| , s ) ~(|,, x ) 属性ラベルの生成音素状態系列 = {1 , … , }の生成音響特徴量系列 = {1 , … , }の生成 For n = 1, … , : For = 1, … , : 音響特徴量の生成 ~( |1 , … , , , , ) ~( |1 , … , −1 , , s ) For = 1, … , : 音素状態の生成話者情報やスタイル情報、話題などが最初に決まる、簡単なカテゴリカル分布でモデル化属性ラベルと音素状態系列に依存して、話者性などを踏まえた音響特徴量系列が決まる、多様なコンテキストを考慮可能なニューラル音声合成でモデル化属性ラベルに依存して、話す内容やスピードを踏まえた音素状態系列が決まる、コンテキストを考慮した自己回帰生成が可能なニューラル言語モデルでモデル化  音響モデル用データがどのように生成されたかを仮定

Copyright©2018 NTT corp. All Rights Reserved. 7 属性ラベルの生成 a =
Categorical(; a )  学習済みのカテゴリカル分布のパラメータを元に、属性ラベルを生成 a = [ 1 , , , … , || , , ]  例えばCSJにおいて講演IDを属性ラベルとして使う場合、各講演IDの発話数を数えればパラメータとなる a a の形のサイコロをふって、出た目の属性ラベルを生成  カテゴリカル分布(ユニグラム)によりモデル化

Copyright©2018 NTT corp. All Rights Reserved. 8 音素状態系列の生成 0 1
1 2 −2 −1 −1 0 1 −2 −1 1 2 −1 … … 1 , … , −1 , , s = Categorical( ; (1 , … , −1 , , s ))  カテゴリカル分布のパラメータを学習済みのニューラル言語モデルで予測し、分布に従い次の音素状態を生成 :ニューラル言語モデル属性ラベルの埋め込みベクトル化音素状態の埋め込みベクトル化 LSTMで履歴を考慮して埋め込みベクトル化ソフトマックス層で、カテゴリカル分布のパラメータ化 s : の形のサイコロをふって、出た目の音素状態を生成  LSTM言語モデルによりモデル化

Copyright©2018 NTT corp. All Rights Reserved. 9 音響特徴量系列の生成  正規分布の平均ベクトルと分散ベクトルを学習済みのニュー
ラル音声合成で予測し、分布に従い次の音素状態を生成 1 2 −1 1 , 1 2 1 2 −1 1 2 −1 1 2 −1 … … … 2 , 2 2 −1 , −1 2 , 2 属性ラベルの埋め込みベクトル化音素状態の埋め込みベクトル化 BLSTMで前後の履歴を考慮して埋め込みベクトル化線形層で、正規分布の平均ベクトルと分散ベクトルを推定 1 , … , , , , x = Normal( ; 1 , … , , , , x , exp(()(1 , … , , , , x ))) :ニューラル音声合成 2 :ニューラル音声合成 x : 正規分布に従い、最尤orランダムに特徴量を生成  密度ネットワークニューラル音声合成によりモデル化

Copyright©2018 NTT corp. All Rights Reserved. 評価実験 10 データ種類データ量(時間)
音響モデル用学習データ CSJ 3,214講演 506.0 評価データ CSJ 30講演 6.4  ニューラル音響モデルの構造  音響モデル用学習データの生成モデルの構造  入力：フィルタバンク特徴量120次元中間：2DConvolution(128x5x11)-2DMaxPooling(2x1) -LSTM512-ReLU1024 出力: ソフトマックス層3072ユニット  ニューラル言語モデル部分 • 属性ラベル埋め込みサイズ: 128 • 音素状態埋め込みサイズ: 650 • LSTMユニットサイズ 650 • ソフトマックス出力層: 3,072  ニューラル音声合成部分 • 属性ラベル埋め込みサイズ: 128 • 音素状態埋め込みサイズ: 650 • BLSTMユニットサイズ: 3x1024 • 線形出力層: 240 (平均+分散)  ニューラル音響モデルの音声認識性能で評価

Copyright©2018 NTT corp. All Rights Reserved. 評価の前に 11 -8 -6
-4 -2 0 2 4 6 8 400 450 500 550 600 ログメルフィルタバンク係数の大きさフレームインデクスオリジナルのデータニューラル音声合成から最尤で再構成したデータニューラル音声合成から分布に従いランダムに生成したデータ  属性ラベルと音素状態系列はオリジナルのものを用いて、音響特徴量系列のみを生成モデルで生成  最尤基準に生成するとオリジナルにかなり近いがややオーバースムージング  分布に従いランダムに生成すると分散でオリジナルよりも揺れがはるかに大きい RMSE ニューラル音声合成から最尤で再構成したデータ 0.48 ニューラル音声合成から分布に従いランダムに生成したデータ 0.73  音響特徴量生成部分が良さそうかを調査

Copyright©2018 NTT corp. All Rights Reserved. 評価結果 12 学習データ量 (時間)
単語誤り率 (%) オリジナルのデータ 504 13.62 生成モデルから生成したデータ（特徴量生成は最尤基準） 50 44.44 500 44.60 5,000 44.31 生成モデルから生成したデータ（特徴量生成は分布に従い確率的） 50 45.49 500 40.44 5,000 39.65  生成モデルで生成したデータから構築した学習することで、オリジナルのデータから学習した場合の7割程度の性能を達成  分布に従った確率的な生成は最尤基準の生成と比べてオリジナルとは遠い音響特徴量を生成しているにも関わらず音声認識には有効  最尤基準の生成は少しのデータを生成するのみで性能がサチっている  評価データに対する単語誤り率による評価

Copyright©2018 NTT corp. All Rights Reserved. 13  なぜいまひとつなのか？ 
音素状態系列の生成はパープレキシティの観点でみてもほぼうまくいっているため、音響特徴量系列に課題ありおわりに  現状の到達点  生成モデルで生成したデータから構築した学習することで、オリジナルのデータから学習した場合の7割程度の性能を達成 • オーバースムージングを避けつつ元の系列を精緻に再現できないといけない？  今後の予定  より精緻な音響特徴量生成を導入したモデル化  Data Augmentationの観点での利用 • ニューラル言語モデルのような自己回帰生成がランダム生成には理想的？  音響モデル用学習データをランダムに生成可能な生成モデルを検討

ニューラル言語モデルとニューラル音声合成を用いた音響モデル用学習データの生成モデルの検討

ニューラル言語モデルとニューラル音声合成を用いた音響モデル用学習データの生成モデルの検討

Ryo Masumura

More Decks by Ryo Masumura

Other Decks in Research

Featured

Transcript

Copyright©2018 NTT corp. All Rights Reserved. ニューラル言語モデルとニューラル音声合成を用いた音響モデル用学習データの生成モデルの検討日本電信電話株式会社 NTTメディアインテリジェンス研究所

Copyright©2018 NTT corp. All Rights Reserved. 本研究の概要 2  現状の到達点

Copyright©2018 NTT corp. All Rights Reserved. 3 本研究のモチベーション  実サービスのログによる音響モデル用学習データは、

Copyright©2018 NTT corp. All Rights Reserved. 4 本研究のアプローチ  モデルに変換すれば、個人を特定する情報は消える

Copyright©2018 NTT corp. All Rights Reserved. 5 音響モデル用学習データの定義  音響特徴量系列:

Copyright©2018 NTT corp. All Rights Reserved. 6 生成過程のモデル化  入力は

Copyright©2018 NTT corp. All Rights Reserved. 7 属性ラベルの生成 a =

Copyright©2018 NTT corp. All Rights Reserved. 8 音素状態系列の生成 0 1

Copyright©2018 NTT corp. All Rights Reserved. 9 音響特徴量系列の生成  正規分布の平均ベクトルと分散ベクトルを学習済みのニュー

Copyright©2018 NTT corp. All Rights Reserved. 評価実験 10 データ種類データ量(時間)

Copyright©2018 NTT corp. All Rights Reserved. 評価の前に 11 -8 -6

Copyright©2018 NTT corp. All Rights Reserved. 評価結果 12 学習データ量 (時間)

Copyright©2018 NTT corp. All Rights Reserved. 13  なぜいまひとつなのか？ 