音声B紹介ポスター@音響学会ビギナーズセミナー

音声B 分野紹介東大院・情報理工中村泰貴

音声B（音声合成・音声変換）⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 1 音声合成とは音声を人工的に作り出す技術

音声合成に関する代表的な研究範囲⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 2 どんな情報からどんな音声を生成するかで分野が細分化テキスト音声合成(Text-to-Speech: TTS) 音声変換(Voice Conversion: VC)
歌声合成(Singing Voice Synthesis) マルチモーダル音声合成こんにちは TTS VC 合成モデル歌詞 + 合成モデルこんにちは口唇情報に基づく音声合成(Lip-to-Speech) 合成モデル唇の動き脳波信号に基づく音声合成(EEG-to-Speech) 合成モデル

音声の持つ情報⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 3 パラ言語情報話し手が意図的に付与するテキスト化できない情報（感情等）言語情報何を話しているかといったテキスト化できる情報非言語情報非意図的に付与されるテキスト化できない情報（声質等）
音声変換では入力された音声のこれらの一部を変換する技術

音声変換の代表的な研究範囲⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 4 声質変換(名探偵コナンの蝶ネクタイ型変成器) 非言語情報(声質など)のみを変換感情変換パラ言語情報(感情など)のみを変換音韻変換言語情報(発言内容)のみを変換
/i/ /u/

音声合成に関するサービス/製品⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 5 テキスト音声合成 [1] 音声変換 [2] 歌声合成 [3]
[1] Coefont 社 homepage より, https://coefont.cloud/ [2] AIで声質を“美少⼥”化⾳声変換サービス「七声ニーナ」、DeNAが試験提供, https://www.itmedia.co.jp/news/articles/2105/12/news123.html [3] NEUTRINO homepage より, https://n3utrino.work/

近年のテキスト音声合成技術⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 6 こんにちは言語特徴量抽出音声特徴量予測音声生成
1995 〜 2016年：複数要素から構成される音声合成システムこんにちは音声特徴量予測 + 音声生成 2017年〜：アテンション機構による End-to-End 音声合成こんにちは 2019年〜：音素継続長機構による End-to-End 音声合成音声特徴量予測 + 音声生成低音質個別に学習させる必要並列計算不可合成失敗の場合あり並列計算可能 -> 高速合成失敗の場合なし

近年の声質変換技術⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 7 1対1音声変換(One-to-One VC) VC (任意)対1音声変換(Any-to-One VC) VC
入出力いずれも学習データに含まれる話者入力が学習データに含まれない話者入力された音声から ①話した内容と ②韻律を抽出 & 声質は取り除く＊声質を取り除きつつ①と②を抽出する VC を学習するのは困難限られたデータ事前に大規模データで自己教師あり学習した特徴量を応用し＊を実現

近年の声質変換技術⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 8 自己教師あり学習特徴抽出大量の音声データ VC 特徴抽出大人数の話者が含まれる大規模データを用いて波形から
話した内容と韻律を内包する情報を抽出するよう学習音声を用いた様々な技術へ応用することが可能 Any-to-One VC 自己教師あり学習で得られる特徴量を導入することで高品質化

まとめ⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 9 ▪ 本スライドの内容音声合成 & 音声変換とは音声合成
& 音声変換の代表的な研究範囲音声合成 & 音声変換のサービス/製品近年の音声合成 & 音声変換 ▪ おまけ（実際に手を動かしてみたい人向けのツールやデータ）日本語テキスト音声合成向けデータセット：JSUT (10 hours, 1 speaker, studio recording) 日本語音声変換向けデータセット：JVS（24 hours, 100 speakers, studio recording）日本語歌声合成データセット：東北きりたんコーパス（50 songs, 1 singer） End-to-End 音声合成(変換)ツール：ESPnet, https://github.com/espnet/espnet 統計的パラメトリック音声合成ツール： nnmnkwii, https://github.com/r9y9/nnmnkwii

音声B紹介ポスター@音響学会ビギナーズセミナー

音声B紹介ポスター@音響学会ビギナーズセミナー

Taiki Nakamura

More Decks by Taiki Nakamura

Other Decks in Technology

Featured

Transcript

音声B 分野紹介東大院・情報理工中村泰貴

音声B（音声合成・音声変換）⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 1 音声合成とは音声を人工的に作り出す技術

音声合成に関する代表的な研究範囲⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 2 どんな情報からどんな音声を生成するかで分野が細分化テキスト音声合成(Text-to-Speech: TTS) 音声変換(Voice Conversion: VC)

音声合成に関するサービス/製品⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 5 テキスト音声合成 [1] 音声変換 [2] 歌声合成 [3]

近年のテキスト音声合成技術⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 6 こんにちは言語特徴量抽出音声特徴量予測音声生成

近年の声質変換技術⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 7 1対1音声変換(One-to-One VC) VC (任意)対1音声変換(Any-to-One VC) VC

近年の声質変換技術⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 8 自己教師あり学習特徴抽出大量の音声データ VC 特徴抽出大人数の話者が含まれる大規模データを用いて波形から

まとめ⽇本⾳響学会2022年春季研究発表会ビギナーズセミナー 9 ▪ 本スライドの内容音声合成 & 音声変換とは音声合成