Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Generative Models for Audio Signal Modeling
Search
Yoshiki Masuyama
June 25, 2020
Research
0
610
Generative Models for Audio Signal Modeling
Yoshiki Masuyama
June 25, 2020
Tweet
Share
More Decks by Yoshiki Masuyama
See All by Yoshiki Masuyama
Phase reconstruction by integrating deep learning and signal processing
ymas0315
0
2.7k
Audio-Visual Learning in NeurIPS2020
ymas0315
0
620
Trends in Deep Generative model and Self-supervised Learning at NeurIPS2019
ymas0315
3
2.3k
Other Decks in Research
See All in Research
言語モデルの内部機序:解析と解釈
eumesy
PRO
32
13k
言語モデルによるAI創薬の進展 / Advancements in AI-Driven Drug Discovery Using Language Models
tsurubee
1
260
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
satai
3
210
Principled AI ~深層学習時代における課題解決の方法論~
taniai
0
110
リモートワークにおけるパッシブ疲労
matsumoto_r
PRO
6
5k
A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images
satai
3
180
20241226_くまもと公共交通新時代シンポジウム
trafficbrain
0
480
研究を支える拡張性の高い ワークフローツールの提案 / Proposal of highly expandable workflow tools to support research
linyows
0
360
Weekly AI Agents News! 12月号 論文のアーカイブ
masatoto
0
250
BtoB プロダクトにおけるインサイトマネジメントの必要性 現場ドリブンなカミナシがインサイトマネジメントに取り組むワケ / Why field-driven Kaminashi is working on insight management
kaminashi
1
360
[輪講] Transformer Layers as Painters
nk35jk
4
720
Mathematics in the Age of AI and the 4 Generation University
hachama
0
140
Featured
See All Featured
Typedesign – Prime Four
hannesfritz
41
2.6k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
2.9k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
It's Worth the Effort
3n
184
28k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.3k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Scaling GitHub
holman
459
140k
Transcript
Generative models for audio signal modeling 升山義紀 1 早稲田大学 及川研究室
自己紹介 2 • 升山義紀 @ymas0315 – 経歴 • 2015.04-2019.03 早稲田大学
基幹理工学部 • 2019.03-現在 同大学院 • 2019.02-2019.09 インターン/アルバイト@LINE • 2019.08-2019.10 インターン@AIST – 研究テーマ • 音響信号処理 (音声強調・分離,位相復元) – 興味のある分野 • クロスモーダル (2.5D Visual Sound, サーベイ発表)
本スライドの内容は個人の解釈であり,誤りの可能性があります. 紹介中の論文および著者ページから図を引用する場合,引用元の 記載を省略します. 3
発表内容 4 • 音響信号の生成モデルとその応用 1. 波形の生成モデル • WaveNet以降の発展 • 画像分野での関連研究との比較
2. スペクトログラムの生成モデル • 高精度なモデリングへ 3. 応用分野 • 音声強調・分離 • 声質変換
音響信号の表現 5 • 時間領域と時間周波数領域 “The Phase Vocoder – Part I,"
URL: https://cycling74.com/tutorials/the-phase-vocoder-%E2%80%93-part-i “MelNet,” URL: https://sjvasquez.github.io/blog/melnet/ 波形 スペクトログラムなど 線形(or非線形)変換 例:短時間フーリエ変換
発表内容 6 • 音響信号の生成モデルとその応用 1. 波形の生成モデル • WaveNet以降の発展 • 画像分野での関連研究との比較
2. スペクトログラムの生成モデル • より高精度なモデリングへ 3. 応用分野 • 音声強調・分離 • 声質変換
波形のモデルリング 7 • 音声信号の特徴を捉えるための課題 – 長期に渡る依存関係 – 隣接したサンプル間の強い相関 "WaveNet: A
generative model for raw audio," URL: https://deepmind.com/blog/article/wavenet-generative- model-raw-audio
変遷 8 • WaveNet以降の主な手法 – 自己回帰生成モデルを避け推論を高速化 WaveNet (2016) Parallel WaveNet
(2017) WaveRNN (2018) ClariNet (2018) FloWaveNet (2018) WaveGlow (2018) Real NVP (2016) Glow (2018) IAF (2016) PixelRNN (2016) PixelCNN (2016) PixelCNN++ (2017) Autoregressive IAF Direct flow
WaveNet (1/3) 9 • Wavenet: A generative model for raw
audio (arXiv2016) – 音声波形を離散化し記号系列へ – 高次マルコフモデルにより出力確率を表現
WaveNet (1/3) 10 • Wavenet: A generative model for raw
audio (arXiv2016) – 音声波形を離散化し記号系列へ – 高次マルコフモデルにより出力確率を表現 Pixel Recurrent Neural Networks (ICML2016) PixelRNN・CNN • 画像生成:256クラスのクラス分類×3 • 自己回帰モデルにもとづいた画像生成
WaveNet (2/3) 11 • 高次マルコフモデルをDNNで置き換え – Dilated convolution • 受容野を効率的に拡大
(長期にわたる依存関係を考慮) – Causal convolution • 生成なので将来のサンプルは利用不可能
WaveNet (3/3) 12 • Conditional WaveNets – 条件付き確率をモデル化 • 話者ラベルなどの大域的な特徴,言語特徴量などの
局所的な特徴の両方を条件付けとして利用可能 • = ς=1 ( |1 , … , −1 , ) この部分に特徴量を畳み込んだものを追加 = tanh , ∗ + , ⋅ , ∗ + ,
WaveRNN 13 • Efficient Neural Audio Synthesis (ICLR2019) – WaveNetの課題:ネットワークが巨大
– WaveRNN:GRU+2Denseという小規模モデル (特徴づけがあれば小規模DNNで十分?) 他にも音質保持+高速化のテクニック多数 • Dual softmax (上位8bit・下位8bitをわける) • 重みのプルーニング (Sparse WaveRNN) • 生成方法の工夫 (Subscale WaveRNN)
Parallel WaveNet (1/3) 14 • Parallel WaveNet: Fast High-Fidelity Speech
Synthesis (ICML2018) – WaveNetの課題: • 自己回帰モデルのため推論が並列にできず生成が遅い – Parallel WaveNet: • Inverse Autoregressive flowを用いることで並列に 推論可能 • 教師として利用するWaveNet自体の性能も改善 PixelCNN++ • PixelCNN:softmaxを利用 • PixelCNN++: • mixture of logisticsのパラメータを推定 ⇒ クラス数≠推定すべきパラメータ数
Parallel WaveNet (2/3) 15 • Inverse Autoregressive Flow (IAF) –
Flowの基本 • 確率変数を可逆変換: = () • このときの確率密度関数:logp = logp − log – Inverse Autoregressive Flow • 変数変換を以下のように定義 = ∙ < , + < , • AutoregressiveNNだと が効率的に可能 (ヤコビアンの対角要素の積になり(3) → ())
Parallel WaveNet (2/3) 16 • Inverse Autoregressive Flow (IAF) –
Flowの基本 • 確率変数を可逆変換: = () • このときの確率密度関数:logp = logp − log – Inverse Autoregressive Flow Improved variational inference with inverse autoregressive flow (NIPS2016)
Parallel WaveNet (2/3) 17 • Inverse Autoregressive Flow (IAF) –
Flowの基本 • 確率変数を可逆変換: = () • このときの確率密度関数:logp = logp − log – Inverse Autoregressive Flow • サンプリング:並列に行うことができるため高速 • 学習:尤度の計算が遅い
Parallel WaveNet (3/3) 18 • Probability Density Distillation loss –
WaveNetとParallel WaveNetの出力を近づける • 教師WaveNet:( |1 , … , −1 , ) • 生徒Parallel WaveNet:( |1 , … , , ) • ロス関数: ( | = ( , ) − ( )
Parallel WaveNet (3/3) 19 • Probability Density Distillation loss –
WaveNetとParallel WaveNetの出力を近づける • 教師WaveNet:( |1 , … , −1 , ) • 生徒Parallel WaveNet:( |1 , … , , ) • ロス関数: ( | = ( , ) − ( ) 変数変換をしただけなので容易に計算可能
Parallel WaveNet (3/3) 20 • Probability Density Distillation loss –
WaveNetとParallel WaveNetの出力を近づける • 教師WaveNet:( |1 , … , −1 , ) • 生徒Parallel WaveNet:( |1 , … , , ) • ロス関数: ( | = ( , ) − ( ) はLogistic分布, は教師自体の性能改善のために 混合Logstic分布 ⇒ 解析的に計算できない ⇒ 生徒Parallel WaveNetからのサンプリングが必要
ClariNet 21 • ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech
(ICLR2019) – 基本的なアイデアはPralell WaveNetと同じ – ClariNet: • 教師・生徒ともにガウシアンにすることでKL疑距離 最小化が解析的に計算可能 ⇒ サンプリングを回避することで学習が安定 ( | = log + 2 − 2 + − 2 2 • 分散の対数値の二乗誤差をによる正則化を追加
WaveGlow (1/2) 22 • WaveGlow: A Flow-based Generative Network for
Speech Synthesis (ICASSP) – 教師WaveNetを利用せずに,並列に推論可能な モデルを獲得したい – Non-causal WaveNet + Glow • 推論: = (, , ),学習: = −1(, , )
WaveGlow (2/2) 23 • WaveGlow: A Flow-based Generative Network for
Speech Synthesis (ICASSP) – 教師WaveNetを利用せずに,並列に推論可能な モデルを獲得したい – Non-causal WaveNet + Glow • 推論: = (, , ),学習: = −1(, , ) 1×1 invertible convolution • Affine coupling layer のみではチャンネル間の情報は お互いに影響されない • Glowでは1×1 convolutionでチャンネル間の情報を混合
FloWaveNet 24 • FloWaveNet: A Generative Flow for Raw Audio
(ICML2019) – 基本的なアイデアはWaveGlowと同じ – WaveGlow: Glow (1×1 invertible convolution) – FloWaveNet: 配列の並び替え
発表内容 25 • 音響信号の生成モデルとその応用 1. 波形の生成モデル • WaveNet以降の発展 • 画像分野での関連研究との比較
2. スペクトログラムの生成モデル • より高精度なモデリングへ 3. 応用分野 • 音声強調・分離 • 声質変換
スペクトログラムのモデリング 26 • 時間周波数領域でのモデリング課題 – 微細な構造のモデリング – 位相(or複素数)の取り扱い “The Phase
Vocoder – Part I," URL: https://cycling74.com/tutorials/the-phase-vocoder-%E2%80%93-part-i “MelNet,” URL: https://sjvasquez.github.io/blog/melnet/
スペクトログラムのモデリング 27 • 時間周波数領域でのモデリング課題 – 微細な構造のモデリング – 位相(or複素数)の取り扱い “The Phase
Vocoder – Part I," URL: https://cycling74.com/tutorials/the-phase-vocoder-%E2%80%93-part-i “MelNet,” URL: https://sjvasquez.github.io/blog/melnet/
Low/multi-resolution GAN 28 • Vocoder-free text-to-speech synthesis incorporating generative adversarial
networks using low-/multi- frequency STFT amplitude spectra (CSL2019) – 複数解像度での生成スペクトログラムの評価 • MSE + Low-res. GAN loss (+ Ori.-res. GAN loss) Φは周波数方向の ダウンサンプリング
MelNet (1/2) 29 • MelNet: A Generative Model for Audio
in the Frequency Domain (arXiv2019) – より高精度なスペクトログラムのモデリング • 従来より冗長な時間周波数解像度 • スムージングを避けたい ⇒ 自己回帰モデルを適用 • 局所・大域的構造 ⇒ Coarse-to-fine (多段の生成) 4つのRNNでコンテキストをエンコード
MelNet (2/2) 30 • Multiscale Modelling – 解像度方向の自己回帰モデリング ; =
ෑ (|<; )
GANSynth 31 • GANSynth: Adversarial Neural Audio Synthesis (ICLR2019) –
GANによる時間周波数領域楽器音合成 – 振幅+瞬時周波数をモデリング • 位相そのものよりも構造が明確 • 時間方向に数値積分して位相を計算
複素スペクトログラムの生成モデル 32 • A Deep Generative Model of Speech Complex
Spectrograms (ICASSP2019) – 振幅と位相の生成モデルをVAEで表現 • 共通の潜在変数利用+振幅を位相の条件付けに利用 • 対数振幅:ガウス分布,位相:von Mises 分布
発表内容 33 • 音響信号の生成モデルとその応用 1. 波形の生成モデル • WaveNet以降の発展 • 画像分野での関連研究との比較
2. スペクトログラムの生成モデル • より高精度なモデリングへ 3. 応用分野 • 音声強調・分離 • 声質変換
生成モデルの応用 34 • 合成以外の応用における生成モデル – 音声強調・分離 • 音声の事前分布をVAEでモデル化 • モノラル/マルチチャネルの両方に応用
– 声質変換 • 話者性(条件)をどう利用するか
音声強調への応用 (1/2) 35 • Statistical speech enhancement based on probabilistic
integration of variational autoencoder and non-negative matrix factorization (ICASSP2018) – 音声の生成モデル:クリーン音声から学習(VAE) – 雑音の生成モデル:NMF ⇒ クリーンな音声のみで学習可能
音声強調への応用 (2/2) 36 • VAEを用いた音声強調 – 音声の事前分布: • 分散時変な零平均の複素ガウス分布 ~
(0, ( )) • VAEで分散をモデル化 – 雑音の事前分布: • 分散はNMFでモデル化 ~ (0, σ ℎ ) – 音声強調 • パラメータの事後分布(, , ℎ|)をMCMCで近似 • 事後確率(|, , ℎ, )が最大となるが強調結果
音源分離への応用 (1/3) 37 • Supervised Determined Source Separation with Multichannel
Variational Autoencoder (MIT Press2019) – 複数話者の発話を複数マイクを利用し分離 – Conditional VAE • 話者ラベルで条件づけられた音声の生成モデルをcVAE のデコーダー表現 – 従来の多チャンネル信号処理+DNNのモデリング • 独立成分分析:元信号の独立性を仮定+事前分布が必要 ⇒ 事前分布のところにDNNを適用
音源分離への応用 (2/3) 38 • 独立成分分析 – 目的:混合音から元信号1 , 2 を復元
• 混合行列 は未知 (, = , ) • 分離はその逆行列 をかけることで可能 ( が可逆) – モデル • 元音源:各音源独立(, は対角行列) , ~ (0, , ) • 混合音:分離行列を使用すると以下の通り , ~ (0, −1, −) • 分離フィルタを最尤推定
音源分離への応用 (3/3) 39 • MVAE – 分散のモデリング • 時変分散,, の部分をVAEで用いてモデリング
,, = ∙ diag( 2(, )) • 潜在変数, 話者ラベル, スケールパラメータを推定 とは尤度が大きくなるように誤差逆伝播法 で更新
声質変換への応用 (1/2) 40 • StarGAN-VC: Non-parallel many-to-many voice conversion using
star generative adversarial networks (SLT2019) – Non-parallelな多対多の声質変換 • Adv. loss + Dom. loss + Cons. loss CycleGAN-VC StarGAN-VC
声質変換への応用 (2/2) 41 • Blow: a single-scale hyperconditioned flow for
non- parallel raw-audio voice conversion (NeurIPS2019) – Flowを使った多対多の波形領域の声質変換 • Forward-backward conversion : 潜 在 空 間 を 話 者 非依存 • HyperConditioning:条件付けする埋め込みから畳み 込み層のカーネルとバイアスを計算
Crossmodal Voice Conversion 42 • Crossmodal Voice Conversion (arXiv2019) –
クロスモーダルな生成 • 入力顔画像に合った声質に入力音声を変換 • 入力音声の声質に適合した顔画像を生成 Speech2Face(CVPR2019)は声→顔のみ
まとめ 43 • 音響信号の生成モデルとその応用 1. 波形の生成モデル • Auto regressive modelからFlowへ
2. スペクトログラムの生成モデル • 高精度なモデリングへ(GANやAuto regressive model) 3. 応用分野 • 音声強調・分離(複素ガウス分布の分散の生成モデル) • 声質変換
Interspeech2019 44