2002_Interspeech報告.pdf

SLP第131回研究会国際会議INTERSPEECH2019報告音声の自己教師あり表現学習 NTT 増村亮

自己教師あり(Self-Supervised)表現学習とは？ • ラベルなしのデータのみから行える範囲内でタスクを設定し、それを解くモデル化を行うことで表現空間を学習する手法 (これまではUnsupervised Learningでまとめられていたが最近はこう呼ぶ) • 代表的な例①：オートエンコーダのモデリング • 考え方：入力自身を復元できるような表現は有用な表現のはず
• 代表的な例②：自己回帰モデリング • 考え方：未来のコンテキストを予測できるような表現は有用な表現のはず • 強み: 教師あり学習等の事前学習にコスト０で手に入るラベルなしデータを活用できること

音声分野の研究例① • Audio Word2Vec [Chung+ Interspeech 2016] • アイデア：入力セグメント自身を復元できるように学習した表現空間は有用なのでは？
つまり、系列オートエンコーダを構成

音声分野の研究例② • Speech2Vec [Chung+ Interspeech 2018] • アイデア：前後のセグメントを予測できるように学習した表現空間は有用なのでは？今のセグメントから
前後のセグメントを予測

音声分野の研究例③ • Unspeech [Milde+ Interspeech 2018] • アイデア：あるセグメントを周辺セグメントから予測できるように学習した表現空間は有用なのでは？周辺セグメントから
間のセグメントを予測するタスクを解く

音声分野の研究例④ • Contrastive Predictive Coding [van den Oord+ NIPS 2018]
• アイデア：未来のセグメントかどうかを見分けられるように学習した表現空間は有用なのでは？未来のセグメントを相互情報量基準で見分けられるようにする

Interspeech2019における研究動向 • 自然言語処理分野のBERT等の成功により、自己教師あり表現学習の文献が増加傾向にある • 注目①：これまでの特徴量抽出のノウハウを利用した表現学習 • 注目②：”発話内という情報”を明示的に利用した表現学習～その１～ •
注目③：”発話内という情報”を明示的に利用した表現学習～その２～ • 注目④： Transformer自己回帰モデルベースの表現学習

• アイデア：波形情報から対数パワースペクトルや MFCC、F0、零交差率を予測できるエンコーダは音声を扱う問題に有用な表現を埋め込むことができるのでは？ • 結果：エンコーダにSincNet[Ravanelli+ 2018]を用いて学習することにより、MFCCやログメルフィルタバンク係数よりも高い性能を達成、特に
話者認識や感情分類では特に有用 Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks Santiago Pascual, Mirco Ravanelli, Joan Serrà, Antonio Bonafonte1, Yoshua Bengio 「これまでの特徴量抽出のノウハウを利用した表現学習」

• アイデア：同一発話内の音声に対してエンコーダの出力が類似するように、そして異なる発話から取り出された音声に対してエンコーダの出力が類似しないようモデル化すれば、話者の分類に有用な表現を得られるのでは？ • 結果：エンコーダにSincNetを用いて学習してから、さらにd-vectorを学習することにより、話者認識タスクにおいて高い性能を達成
Learning Speaker Representations with Mutual Information Mirco Ravanelli, Yoshua Bengio 「 ”発話内という情報”を明示的に利用した表現学習～その１」

Self-supervised speaker embeddings Themos Stafylakis, Johan Rohdin, Oldrich Plchot, Petr
Mizera, Lukas Burget • アイデア：同一音声内の別セグメントのオートエンコーディング（音素系列経由のオートエンコーディング）を助けることができる表現は、話者等の情報を含む表現なのでは？ ※ ASRを使う点はややずるい… • 結果：学習した表現を話者認識タスクで利用することで、d-vectorと遜色ない性能を達成「 ”発話内という情報”を明示的に利用した表現学習～その2～」

Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion
Recognition Zheng Lian, Jianhua Tao, Bin Liu, Jian Huang 「Transformer自己回帰モデルベースの表現学習」 • アイデア：Transformerのデコーダ部分である masked multi-head self attentionベースの自己回帰モデルを用いて、現在までの情報から未来のフレームを予測できるように学習すれば有用なエンコーダを構成できるのでは？ • 結果：感情認識タスクの事前学習に用いることにより高い性能を達成

2002_Interspeech報告.pdf

2002_Interspeech報告.pdf

Ryo Masumura

More Decks by Ryo Masumura

Other Decks in Research

Featured

Transcript

SLP第131回研究会国際会議INTERSPEECH2019報告音声の自己教師あり表現学習 NTT 増村亮

音声分野の研究例① • Audio Word2Vec [Chung+ Interspeech 2016] • アイデア：入力セグメント自身を復元できるように学習した表現空間は有用なのでは？

音声分野の研究例② • Speech2Vec [Chung+ Interspeech 2018] • アイデア：前後のセグメントを予測できるように学習した表現空間は有用なのでは？今のセグメントから

音声分野の研究例③ • Unspeech [Milde+ Interspeech 2018] • アイデア：あるセグメントを周辺セグメントから予測できるように学習した表現空間は有用なのでは？周辺セグメントから

音声分野の研究例④ • Contrastive Predictive Coding [van den Oord+ NIPS 2018]

Self-supervised speaker embeddings Themos Stafylakis, Johan Rohdin, Oldrich Plchot, Petr

Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion