Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2002_Interspeech報告.pdf
Search
Ryo Masumura
February 13, 2020
Research
0
530
2002_Interspeech報告.pdf
Ryo Masumura
February 13, 2020
Tweet
Share
More Decks by Ryo Masumura
See All by Ryo Masumura
クロスモーダル表現学習の研究動向: 音声関連を中心として
ryomasumura
3
1.2k
MediaGnosis IEEE ICIP2023 Industry Seminar
ryomasumura
0
490
複数人会話データを活用した音声言語処理とアプリケーション(slud研究会招待講演)
ryomasumura
0
980
1907_ICASSP報告.pdf
ryomasumura
0
190
対話コンテキストを扱うターン交替点検出の検討
ryomasumura
0
560
階層再帰型Encoder-Decoderに基づく談話コンテキストEnd-to-End音声認識
ryomasumura
0
750
学会に発表者として継続的に参加するためのセルフマネージメント
ryomasumura
11
8.4k
対話コンテキストを考慮したニューラル通話シーン分割
ryomasumura
1
420
複数言語複数タスクを扱う発話意図推定モデリングのための敵対的学習の検討
ryomasumura
0
370
Other Decks in Research
See All in Research
財務諸表監査のための逐次検定
masakat0
0
210
GPUを利用したStein Particle Filterによる点群6自由度モンテカルロSLAM
takuminakao
0
650
Agentic AI フレームワーク戦略白書 (2025年度版)
mickey_kubo
1
100
Agentic AI Era におけるサプライチェーン最適化
mickey_kubo
0
110
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
1
460
SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
satai
3
180
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
130
長期・短期メモリを活用したエージェントの個別最適化
isidaitc
0
340
MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation
satai
4
510
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
180
論文読み会 SNLP2025 Learning Dynamics of LLM Finetuning. In: ICLR 2025
s_mizuki_nlp
0
350
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
15
16k
Featured
See All Featured
AI Search: Where Are We & What Can We Do About It?
aleyda
0
6.7k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
47
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.6k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
200
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
340
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
120
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
180
The browser strikes back
jonoalderson
0
63
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
500
Skip the Path - Find Your Career Trail
mkilby
0
22
Transcript
SLP第131回研究会 国際会議INTERSPEECH2019報告 音声の自己教師あり表現学習 NTT 増村 亮
自己教師あり(Self-Supervised)表現学習とは? • ラベルなしのデータのみから行える範囲内でタスクを設定し、 それを解くモデル化を行うことで表現空間を学習する手法 (これまではUnsupervised Learningでまとめられていたが最近はこう呼ぶ) • 代表的な例①:オートエンコーダのモデリング • 考え方:入力自身を復元できるような表現は有用な表現のはず
• 代表的な例②:自己回帰モデリング • 考え方:未来のコンテキストを予測できるような表現は有用な表現のはず • 強み: 教師あり学習等の事前学習に コスト0で手に入るラベルなしデータを活用できること
音声分野の研究例① • Audio Word2Vec [Chung+ Interspeech 2016] • アイデア:入力セグメント自身を復元できるように学習した 表現空間は有用なのでは?
つまり、系列オートエンコーダを構成
音声分野の研究例② • Speech2Vec [Chung+ Interspeech 2018] • アイデア:前後のセグメントを予測できるように学習した 表現空間は有用なのでは? 今のセグメントから
前後のセグメントを予測
音声分野の研究例③ • Unspeech [Milde+ Interspeech 2018] • アイデア:あるセグメントを周辺セグメントから予測できるように 学習した表現空間は有用なのでは? 周辺セグメントから
間のセグメントを予測するタスクを解く
音声分野の研究例④ • Contrastive Predictive Coding [van den Oord+ NIPS 2018]
• アイデア:未来のセグメントかどうかを見分けられるように学習し た表現空間は有用なのでは? 未来のセグメントを相互情報量 基準で見分けられるようにする
Interspeech2019における研究動向 • 自然言語処理分野のBERT等の成功により、 自己教師あり表現学習の文献が増加傾向にある • 注目①:これまでの特徴量抽出のノウハウを利用した表現学習 • 注目②:”発話内という情報”を明示的に利用した表現学習 ~その1~ •
注目③:”発話内という情報”を明示的に利用した表現学習 ~その2~ • 注目④: Transformer自己回帰モデルベースの表現学習
• アイデア:波形情報から対数パワースペクトルや MFCC、F0、零交差率を予測できるエンコーダは 音声を扱う問題に有用な表現を埋め込むことがで きるのでは? • 結果:エンコーダにSincNet[Ravanelli+ 2018]を 用いて学習することにより、MFCCやログメル フィルタバンク係数よりも高い性能を達成、特に
話者認識や感情分類では特に有用 Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks Santiago Pascual, Mirco Ravanelli, Joan Serrà, Antonio Bonafonte1, Yoshua Bengio 「これまでの特徴量抽出のノウハウを利用した表現学習」
• アイデア:同一発話内の音声に対してエンコーダの 出力が類似するように、そして異なる発話から取り 出された音声に対してエンコーダの出力が類似しな いようモデル化すれば、話者の分類に有用な表現を 得られるのでは? • 結果:エンコーダにSincNetを用いて学習してから、 さらにd-vectorを学習することにより、話者認識タ スクにおいて高い性能を達成
Learning Speaker Representations with Mutual Information Mirco Ravanelli, Yoshua Bengio 「 ”発話内という情報”を明示的に利用した表現学習 ~その1」
Self-supervised speaker embeddings Themos Stafylakis, Johan Rohdin, Oldrich Plchot, Petr
Mizera, Lukas Burget • アイデア:同一音声内の別セグメントのオートエ ンコーディング(音素系列経由のオートエンコー ディング)を助けることができる表現は、話者等 の情報を含む表現なのでは? ※ ASRを使う点はややずるい… • 結果:学習した表現を話者認識タスクで利用する ことで、d-vectorと遜色ない性能を達成 「 ”発話内という情報”を明示的に利用した表現学習 ~その2~」
Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion
Recognition Zheng Lian, Jianhua Tao, Bin Liu, Jian Huang 「Transformer自己回帰モデルベースの表現学習」 • アイデア:Transformerのデコーダ部分である masked multi-head self attentionベースの自 己回帰モデルを用いて、現在までの情報から未 来のフレームを予測できるように学習すれば有 用なエンコーダを構成できるのでは? • 結果:感情認識タスクの事前学習に用いること により高い性能を達成