Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声B紹介ポスター@音響学会ビギナーズセミナー
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Taiki Nakamura
March 08, 2022
Technology
510
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
音声B紹介ポスター@音響学会ビギナーズセミナー
Taiki Nakamura
March 08, 2022
More Decks by Taiki Nakamura
See All by Taiki Nakamura
【ICASSP2024】音声変換に関する全論文まとめ【Parakeet株式会社】
supikiti
0
990
研究会発表資料.pdf
supikiti
4
800
DDPM解説スライド.pdf
supikiti
0
4.7k
Hydra, MLflow, Optunaの組み合わせで手軽に始めるハイパーパラメータ管理
supikiti
7
4.3k
hydra-mlflow-optuna
supikiti
4
7.5k
Interspeech2020_読み会_nakamura
supikiti
0
680
Other Decks in Technology
See All in Technology
速さだけじゃない! VoidZero ツールが移行先に選ばれる理由
mizdra
PRO
6
760
Claude Code×Terraform IaC テンプレート駆動開発
itouhi
1
390
AIを「創る」と「使う」の循環 — HRテックが実践するリアルなAI組織実装
taketo957
0
1.7k
AI Engineering Summit Tokyo 2026 AIの前に、やることがある 〜医療データ企業の4フェーズ〜
dtaniwaki
0
2k
React、まだ楽しくて草
uhyo
7
4.1k
製造業のクラウド活用最適解〜AI,DXを加速するデータ基盤の作り方〜
hamadakoji
0
400
チームで実践する AI-DLC 思考の軌跡を残すチェックポイント設計
belongadmin
0
2.8k
AI Adaptable なテストを整える工夫 / Ways to Make Your Tests AI-Adaptable
bitkey
PRO
3
220
Platform Engineering as a Product: Criteria for Improvement and Multi-Tenant Design
kumorn5s
0
510
Agentic Defenseとともにセキュリティエンジニアが輝き続けるには / How Security Engineers Can Keep Excelling with Agentic Defense
yuj1osm
0
120
Claude code Orchestra
ozakiomumkj
3
980
AWSシリコン最前線 〜AI時代のチップ選択を読み解く〜
htokoyo
1
160
Featured
See All Featured
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.5k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
The Limits of Empathy - UXLibs8
cassininazir
1
350
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
240
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
200
Measuring & Analyzing Core Web Vitals
bluesmoon
9
860
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
22k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
23k
Transcript
音声B 分野紹介 東大院・情報理工 中村泰貴
音声B(音声合成・音声変換) ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 1 音声合成とは 音声を人工的に作り出す技術
音声合成に関する代表的な研究範囲 ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 2 どんな情報からどんな音声を生成するかで分野が細分化 テキスト音声合成(Text-to-Speech: TTS) 音声変換(Voice Conversion: VC)
歌声合成(Singing Voice Synthesis) マルチモーダル音声合成 こんにちは TTS VC 合成モデル 歌詞 + 合成モデル こんにちは 口唇情報に基づく音声合成(Lip-to-Speech) 合成モデル 唇の動き 脳波信号に基づく音声合成(EEG-to-Speech) 合成モデル
音声の持つ情報 ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 3 パラ言語情報 話し手が意図的に付与するテキスト化できない情報(感情等) 言語情報 何を話しているかといったテキスト化できる情報 非言語情報 非意図的に付与されるテキスト化できない情報(声質等)
音声変換では入力された音声のこれらの一部を変換する技術
音声変換の代表的な研究範囲 ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 4 声質変換(名探偵コナンの蝶ネクタイ型変成器) 非言語情報(声質など)のみを変換 感情変換 パラ言語情報(感情など)のみを変換 音韻変換 言語情報(発言内容)のみを変換
/i/ /u/
音声合成に関するサービス/製品 ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 5 テキスト音声合成 [1] 音声変換 [2] 歌声合成 [3]
[1] Coefont 社 homepage より, https://coefont.cloud/ [2] AIで声質を“美少⼥”化⾳声変換サービス「七声ニーナ」、DeNAが試験提供, https://www.itmedia.co.jp/news/articles/2105/12/news123.html [3] NEUTRINO homepage より, https://n3utrino.work/
近年のテキスト音声合成技術 ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 6 こんにちは 言語特徴量 抽出 音声特徴量 予測 音声生成
1995 〜 2016年:複数要素から構成される音声合成システム こんにちは 音声特徴量予測 + 音声生成 2017年〜:アテンション機構による End-to-End 音声合成 こんにちは 2019年〜:音素継続長機構による End-to-End 音声合成 音声特徴量予測 + 音声生成 低音質 個別に学習させる必要 並列計算不可 合成失敗の場合あり 並列計算可能 -> 高速 合成失敗の場合なし
近年の声質変換技術 ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 7 1対1音声変換(One-to-One VC) VC (任意)対1音声変換(Any-to-One VC) VC
入出力いずれも学習データに含まれる話者 入力が学習データに含まれない話者 入力された音声から ①話した内容 と ②韻律 を抽出 & 声質は取り除く *声質を取り除きつつ①と②を抽出する VC を学習するのは困難 限られたデータ 事前に大規模データで自己教師あり学習した特徴量を応用し * を実現
近年の声質変換技術 ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 8 自己教師あり学習 特徴抽出 大量の音声データ VC 特徴抽出 大人数の話者が含まれる大規模データを用いて波形から
話した内容と韻律を内包する情報を抽出するよう学習 音声を用いた 様々な技術へ応用 することが可能 Any-to-One VC 自己教師あり学習で得られる特徴量を導入することで高品質化
まとめ ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 9 ▪ 本スライドの内容 音声合成 & 音声変換とは 音声合成
& 音声変換の代表的な研究範囲 音声合成 & 音声変換のサービス/製品 近年の音声合成 & 音声変換 ▪ おまけ(実際に手を動かしてみたい人向けのツールやデータ) 日本語テキスト音声合成向けデータセット:JSUT (10 hours, 1 speaker, studio recording) 日本語音声変換向けデータセット:JVS(24 hours, 100 speakers, studio recording) 日本語歌声合成データセット:東北きりたんコーパス(50 songs, 1 singer) End-to-End 音声合成(変換)ツール:ESPnet, https://github.com/espnet/espnet 統計的パラメトリック音声合成ツール: nnmnkwii, https://github.com/r9y9/nnmnkwii