Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声認識と音声合成の超入門
Search
Akira Tamamori
June 16, 2023
Technology
0
480
音声認識と音声合成の超入門
音響学入門ペディアを参考に
Akira Tamamori
June 16, 2023
Tweet
Share
More Decks by Akira Tamamori
See All by Akira Tamamori
音声情報処理に便利な (Python) パッケージやソフトウェア
tam17aki
3
920
Tokyo BISH Bash #02 音声情報処理と音声変換技術入門
tam17aki
2
2.2k
[ICASSP2020音響音声読み会] State-Space Gaussian Process for Drift Estimation in Stochastic Differential Equations
tam17aki
0
570
Other Decks in Technology
See All in Technology
QA業務を変える(!?)AIを併用した不具合分析の実践
ma2ri
0
140
CNCFの視点で捉えるPlatform Engineering - 最新動向と展望 / Platform Engineering from the CNCF Perspective
hhiroshell
0
140
ViteとTypeScriptのProject Referencesで 大規模モノレポのUIカタログのリリースサイクルを高速化する
shuta13
3
190
様々なファイルシステム
sat
PRO
0
240
知覚とデザイン
rinchoku
1
540
OCIjp_Oracle AI World_Recap
shinpy
1
170
20251027_findyさん_音声エージェントLT
almondo_event
0
220
ソースを読む時の思考プロセスの例-MkDocs
sat
PRO
1
160
コンパウンド組織のCRE #cre_meetup
layerx
PRO
1
260
オブザーバビリティと育てた ID管理・認証認可基盤の歩み / The Journey of an ID Management, Authentication, and Authorization Platform Nurtured with Observability
kaminashi
1
520
JSConf JPのwebsiteをGatsbyからNext.jsに移行した話 - Next.jsの多言語静的サイトと課題
leko
2
180
AWS UG Grantでグローバル20名に選出されてre:Inventに行く話と、マルチクラウドセキュリティの教科書を執筆した話 / The Story of Being Selected for the AWS UG Grant to Attending re:Invent, and Writing a Multi-Cloud Security Textbook
yuj1osm
1
130
Featured
See All Featured
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.5k
Testing 201, or: Great Expectations
jmmastey
45
7.7k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
54k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Become a Pro
speakerdeck
PRO
29
5.6k
KATA
mclloyd
PRO
32
15k
How to Ace a Technical Interview
jacobian
280
24k
Stop Working from a Prison Cell
hatefulcrawdad
272
21k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
The Language of Interfaces
destraynor
162
25k
How to train your dragon (web standard)
notwaldorf
97
6.3k
Documentation Writing (for coders)
carmenintech
75
5.1k
Transcript
音声認識
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 てんきははれ 天気は晴れ てんきわはれ 点 際 晴れ てんきはれい
天気は例 「天気は晴れ」 コンピュータくん
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 • 音の知識のイメージ ◦ 「あ」の音はこんな波形、「サッカー」という音はこんな波形、、、 ◦ 人間は「あ」という音を聞いたら、「これは”あ”という音だな」と分かる ⇒人間は「あ」という音がどんな波形であるかの知識を持っている
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 • 言語の知識のイメージ ◦ 文字や単語の並びが自然かどうかを判断する知識 「彼は晩ごはんに焼き肉を食べました」 ⇐自然 「彼は晩ごはんにサッカーを食べました」 ⇐不自然 →焼き肉が食べ物でサッカーが食べ物ではない、という知識を人間が持っているか
らこそ、自然かどうかを判断できる
音声合成
音声合成 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、テキストから音声を合成する技術」 動詞、名詞、形 容詞… コンピュータくん 「天気は晴れ」 てんきははれ ten-ki-wa-hare アクセント、
イントネーション
超簡易版 音声合成の歴史 • ルールベース(職人芸):フォルマント合成(1990年以前) ◦ 手動ルールによる各音素(/a/や/k/など)の素片を構築 ◦ e.g., AquesTalk(いわゆる「ゆっくりボイス」) • コーパスベース:波形接続型音声合成(1990年〜)
◦ 音声データベースから音声素片を接続し合成 ◦ e.g., ボーカロイド • コーパスベース:統計的パラメトリック音声合成(1995年〜) ◦ 音声データベースから統計的に音声を予測し合成 ◦ 隠れマルコフモデル/深層学習による音声合成 ◦ e.g. CeVIO 参考 https://www.sp.nitech.ac.jp/~tokuda/tokuda_ongaku2013.pdf
統計的音声合成の概要 出典『音響学入門ペディア』(コロナ社)