Upgrade to Pro — share decks privately, control downloads, hide ads and more …

音をつくるための拡散モデル

Yuma Koizumi
March 02, 2023

 音をつくるための拡散モデル

第49回IBISML研究会 招待講演資料
音声/動画ファイルは、export の際に表示されなくなっています。ご了承ください。

Yuma Koizumi

March 02, 2023
Tweet

More Decks by Yuma Koizumi

Other Decks in Research

Transcript

  1. Proprietary + Confidential 自己紹介 ❏ 氏名:小泉 悠馬 ❏ 経歴 ❏

    2020〜現在:Google Research, Senior Research Scientist ❏ 2014〜2020:NTT メディアインテリジェンス研究所, 研究員 ❏ 2017:博士(工学), 電気通信大学, 羽田陽一研究室 ❏ 2014:修士(理学), 法政大学, 伊藤克亘研究室 ❏ 研究分野 ❏ 深層学習を使った音声&音響処理全般 ❏ 音声強調、音声合成、音声認識、環境音認識、異常音検知 etc..
  2. Proprietary + Confidential Google Speech Group in Tokyo Michiel Bacchiani

    Richard Sproat Llion Jones Yotaro Kubo Shigeki Karita Yuma Koizumi Keisuke Kinoshita Hynek Hermansky
  3. Proprietary + Confidential 今日のトーク ❏ 話さないこと ❏ 拡散モデルの理論的な中身(皆様の方が遥かにプロでしょう...) ❏ 話すこと

    ❏ 音をつくるタスクにはどんなものがあるか ❏ その中で DNN はどのように使われているか ❏ 拡散モデルはどのように使われているか
  4. Proprietary + Confidential 今日のトーク ❏ 話さないこと ❏ 拡散モデルの理論的な中身(皆様の方が遥かにプロでしょう...) ❏ 話すこと

    ❏ 音をつくるタスクにはどんなものがあるか ❏ その中で DNN はどのように使われているか ❏ 拡散モデルはどのように使われているか
  5. Proprietary + Confidential 音をつくるタスク(声を変える) ❏ 声質変換(VC: Voice Conversion) ❏ 音声翻訳(S2ST:

    Speech-to-Speech Translation) System System Translatotron 2: High-quality direct speech-to-speech translation with voice preservation: https://google-research.github.io/lingvo-lab/translatotron2/
  6. Proprietary + Confidential 音をつくるタスク(声以外の音を創る) AudioGen: Textually Guided Audio Generation: https://felixkreuk.github.io/text2audio_arxiv_samples/

    MusicLM: Generating Music From Text: https://google-research.github.io/seanet/musiclm/examples/ Noise2Music: Text-conditioned Music Generation with Diffusion Models: https://google-research.github.io/noise2music/ Whistling with wind blowing Text System Sample from AudioGen demo page ❏ 環境音生成 ❏ 音楽生成 System Music Slow tempo, bass-and-drums-led reggae song. Sustained electric guitar. High-pitched bongos with ringing tones. Vocals are relaxed with a laid-back feel, very expressive. Text Sample from MusicLM demo page
  7. Proprietary + Confidential 今日のトーク ❏ 話さないこと ❏ 拡散モデルの理論的な中身(皆様の方が遥かにプロでしょう...) ❏ 話すこと

    ❏ 音をつくるタスクにはどんなものがあるか ❏ その中で DNN はどのように使われているか ❏ 拡散モデルはどのように使われているか
  8. Proprietary + Confidential 音声の生成過程 ❏ 発話中の口の中や声帯の動きの MRI 動画 Video from

    the website of span “the rtMRI gallery”: https://sail.usc.edu/span/ 声帯や舌などで 音を作り 口の開き方で音 色を変える 何を発話する かを決め 波形生成 音パラメータ生成 波形生成は、物理的な現象を信号処理で再現 する問題に落とし込めるので、分離した方が都 合が良かった
  9. Proprietary + Confidential 深層学習に至るまでのたくさんの研究は時間の関係で省略します... ごめんなさい... *この分野では数多くの日本人研究者が貢献されてきました。ご興味があれば、上のワードなどでググっていただくと、沢山の情報が出てきます。 *以降、音生成系の論文を読まれるときは、この大枠の構造を頭に入れておくと「あ、この部分の研究なのね」となり、読むのが楽になると思います。 Input 波形生成 (vocoder)

    音パラメータ生成 (音響モデル) 時は流れ... ソースフィルタモデル、 Vocoder、メルケプスト ラム、STRAIGHT、WORLD etc… 素片接続、統計的パラメトリック音声合成、 HMM音声合成 etc... 信号処理的な発展 統計処理的な発展 ❏ 歴史的に、これら二つのモジュールを発展&統合させることで精度が改善してきた ❏ 各モジュールを発展させるために DNNが導入されたきた
  10. Proprietary + Confidential DNN音響モデル [Zen+, 2013] ❏ Vocoder(波形生成信号処理)のパラメータ推定にDNNを利用 Text 波形生成

    (vocoder) 音パラメータ生成 DNN (音響モデル) H. Zen+, “Statistical parametric speech synthesis using deep neural networks,” ICASSP 2013 ❏ NNベースの音響モデル自体は存在した [Karaali+, 1996] が、 DNNの流行とともに再度現れ火付け役になった ❏ 以降、モデル構造やコスト関数の研究が盛んに ❏ 音素から音響特徴を予測する軽量 LSTM [Zen+, 2016] ❏ GANベースの音響モデル [Saito+, 2017] テキスト 解析 論文の Fig. 1
  11. Proprietary + Confidential WaveNet [Oord+, 2016] ❏ 波形生成を自己回帰型の CNN で実行する

    波形生成 DNN (neural vocoder) 音パラメータ生成 DNN (音響モデル) ❏ 波形生成がDNNに取って代わられるきっかけとなった ❏ Vocoder パラメータなどからの波形予測へ発展 [Tamamori+, 2017] ❏ Vocoder を DNN で実装するので、Neural Vocoder と呼ばれることが多い ❏ 学習と生成に時間がかかる問題への研究が盛んに ❏ WaveRNN: RNNでも良い? [Kalchbrenner+, 2018] ❏ Parallel WaveNet: 自己回帰型でなくてもできる? [Oord+, 2018] ❏ GAN の方が精度よく合成できる?(非常に多数の論文&現在の主流) Text テキスト 解析
  12. Proprietary + Confidential Tacotron2 [Shen+, 2018] ❏ テキスト解析を介さず、all neural network

    での学習が可能に Text 波形生成 DNN (neural vocoder) メルスペクトログラム生 成 DNN (音響モデル) ❏ ドメイン特化した前処理がほとんど不要になる ❏ 波形を生成するタスクに汎用的に利用できる枠組みとして発展する ❏ e.g. 音声強調: Parametric resynthesis [Maiti+, 2019] J. Shen+, “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions,” ICASSP 2018 時間 メルスケール周波数
  13. Proprietary + Confidential 例:音声強調 [Maiti+, 2019] 波形生成 DNN (neural vocoder)

    メルスペクトログラムク リーニング DNN 時間 メルスケール周波数 時間 メルスケール周波数 雑音混じりの音声の メルスペクトログラム 雑音のない音声の メルスペクトログラム S. Maiti and M. I. Mandel, “Parametric resynthesis with neural vocoders,” WASPAA, 2019
  14. Proprietary + Confidential 例:音声翻訳 [Jia+, 2019/2022]など... 波形生成 DNN (neural vocoder)

    メルスペクトログラム変 換 DNN 時間 メルスケール周波数 時間 メルスケール周波数 スペイン語の メルスペクトログラム 英語の メルスペクトログラム Y. Jia, “Direct speech-to-speech translation with a sequence-to-sequence model,” Interspeech, 2019 Y. Jia, “Translatotron 2: High-quality direct speech-to-speech translation with voice preservation,” ICML, 2022
  15. Proprietary + Confidential 拡散モデルを利用した音生成へ Input 波形生成 DNN (neural vocoder) 音パラメータ生成

    DNN (音響モデル) WaveNet の登場 Parallel WaveNet の登場 自己回帰型モデルの発展 GANベースの非自己回帰型モデルの登場 拡散モデルベースの非自己回帰型モデルの登場 非自己回帰型モデルの発展 黒魔術の発展 DNN音響モデル の登場 Tacotron の登場 音声合成以外の分野への普及 拡散モデルベースの手法の登場 モデル構造/学習方法の発展
  16. Proprietary + Confidential 今日のトーク ❏ 話さないこと ❏ 拡散モデルの理論的な中身(皆様の方が遥かにプロでしょう...) ❏ 話すこと

    ❏ 音をつくるタスクにはどんなものがあるか ❏ その中で DNN はどのように使われているか ❏ 拡散モデルはどのように使われているか
  17. Proprietary + Confidential 拡散モデルを利用した音生成へ Input 波形生成 DNN (neural vocoder) 音パラメータ生成

    DNN (音響モデル) WaveNet の登場 Parallel WaveNet の登場 自己回帰型モデルの発展 GANベースの非自己回帰型モデルの登場 拡散モデルベースの非自己回帰型モデルの登場 非自己回帰型モデルの発展 黒魔術の発展 DNN音響モデル の登場 Tacotron の登場 音声合成以外の分野への普及 拡散モデルベースの手法の登場 モデル構造/学習方法の発展
  18. Proprietary + Confidential WaveGrad [Chen+, 2021] ❏ 拡散モデルを利用した最初の neural vocoder

    DNNの出力 =波形 出力波形を 短時間フーリエ変換し て解析したもの GIFアニメと音は WaveGrad の demo page より: https://wavegrad.github.io/
  19. Proprietary + Confidential DDPMベースの Neural Vocoder の発展 ❏ 簡略化した推論アルゴリズム 音声推定DNN

    白色雑音の 付与 繰り返し 初期雑音 出力音声 1. ネットワーク構造の研究 [†] 2. 雑音付与量の研究 [*] [†] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021 [*] M. W. Y. Lam+, “BDDM: Bilateraldenoising Diffusion Models for Fast and High-Quality Speech Synthesis,” ICLR, 2022
  20. Proprietary + Confidential DDPMベースの Neural Vocoder の発展 ❏ 簡略化した推論アルゴリズム 音声推定DNN

    白色雑音の 付与 繰り返し 初期雑音 出力音声 1. ネットワーク構造の研究 [†] 2. 雑音付与量の研究 [*] [†] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021 [*] M. W. Y. Lam+, “BDDM: Bilateraldenoising Diffusion Models for Fast and High-Quality Speech Synthesis,” ICLR, 2022 3. 雑音の種類の研究
  21. Proprietary + Confidential SpecGrad [Koizumi+, 2022] ❏ 雑音のスペクトル包絡をログメルスペクトログラムから制御 N. Chen+,

    “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
  22. Proprietary + Confidential それはどういうことですか? ❏ 任意の共分散行列を持つ正規分布を利用することに相当 [†] N. Chen+, “WaveGrad:

    Estimating Gradients for Waveform Generation,” ICLR, 2021. [*] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. WaveGrad [†] PriorGrad [*] SpecGrad 時間 周波数 振幅 時間 周波数 振幅 時間 周波数 振幅
  23. Proprietary + Confidential Demo Text: I can't speak for Scooby,

    but have you looked in the Mystery Machine? どちらが合成音声でしょう?
  24. Proprietary + Confidential Demo Text: I can't speak for Scooby,

    but have you looked in the Mystery Machine? 元音声 合成音声 ❏ ヘッドホンをしないと差がわからないかもしれません... ❏ 他のサンプルはデモサイトにて:https://wavegrad.github.io/specgrad/
  25. Proprietary + Confidential 拡散モデルを利用した音生成へ Input 波形生成 DNN (neural vocoder) 音パラメータ生成

    DNN (音響モデル) WaveNet の登場 Parallel WaveNet の登場 自己回帰型モデルの発展 GANベースの非自己回帰型モデルの登場 拡散モデルベースの非自己回帰型モデルの登場 非自己回帰型モデルの発展 黒魔術の発展 DNN音響モデル の登場 Tacotron の登場 音声合成以外の分野への普及 拡散モデルベースの手法の登場 モデル構造/学習方法の発展
  26. Proprietary + Confidential 考え方は画像生成と同じ ❏ 簡略化した推論アルゴリズム DNN 白色雑音の 付与 繰り返し

    初期雑音 出力 2次元の白色雑音から 2次元の画像 =ログメルスペクトログラムを生 成
  27. Proprietary + Confidential 考え方は画像生成と同じ ❏ 簡略化した推論アルゴリズム DNN 白色雑音の 付与 繰り返し

    初期雑音 出力 2次元の白色雑音から 2次元の画像 =ログメルスペクトログラムを生 成 雑音の種類の研究として Grad-TTS [Popov+, 2021] を紹介
  28. Proprietary + Confidential GradTTS [Popov+, 2021] ❏ 拡散モデルを、ログメルスペクトログラムの精細化に利用 V. Popov+,

    "Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech," ICML 2021 またもや最初が 白色雑音じゃない Grad-TTS論文の Fig. 1
  29. Proprietary + Confidential GradTTS [Popov+, 2021] ❏ 拡散モデルを、ログメルスペクトログラムの精細化に利用 V. Popov+,

    "Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech," ICML 2021 Grad-TTS論文の Fig. 2 従来の音響モデルのように スペクトルを予測し それを平均に持つ正規分布 からノイズ生成する
  30. Proprietary + Confidential GradTTS [Popov+, 2021] ❏ 拡散モデルを、ログメルスペクトログラムの精細化に利用 音声およびGIF アニメは

    Grad-TTS demo page から: https://grad-tts.github.io/ DNNの出力 =スペクトル 出力を Neural vocoder で波 形に変換したもの ノイズ分布の平均 ノイズ分布からの乱数 = iter. 0 Iter. 30 Iter. 50
  31. Proprietary + Confidential 今後は音も拡散モデルが主流になるの? ❏ 拡散モデルと自己教師あり学習が覇権争い中... 正直、わかりません... ❏ Neural vocoder

    に関しては、繰り返しの denoising 処理が効いているのであり、 diffusion は必須ではなさそう ❏ WaveFit: DDIMのように雑音を足さない+GAN loss の方が良い [Koizumi+, 2022] ❏ 音響モデルは、ログメルスペクトログラム + 拡散モデルより、 自己教師あり学習で得られたトークンを言語モデルで特徴変換も精度が高い ❏ c.f. AudioLM [Borsos+, 2022] & VALL-E [Wang+, 2023] ❏ でも、End-to-End でスコアベースの拡散モデルを学習することで、従来の二段階処理 よりも良い結果が出始めている ❏ UNIVERSE: 雑音を含むスペクトルを条件付けで直接クリーン音声を予測 [Serrà+, 2022]
  32. Proprietary + Confidential まとめ ❏ 拡散モデルは、音をつくるタスクに利用されはじめている ❏ 音響モデルと Neural vocoder

    それぞれで研究が進んでいる ❏ 拡散モデルで、end-to-end に波形を生成する方法も出てきた ❏ 一方、自己教師あり学習+言語モデルで音をつくる研究も盛んで、今後、 拡散モデルが音の生成の主流になるかは定かでない... ❏ なんにせよ、理論的バックグラウンドがしっかりしている、かつ高品質な音 が生成できるので、研究の余地はたくさんある分野です Join us!!