音声認識と音声合成の超入門

音声認識

音声認識「コンピュータが、自身の脳の中にある音の知識と言語の知識を駆使して、音声を自動でテキスト化する技術」てんきははれ天気は晴れてんきわはれ点際晴れてんきはれい
天気は例「天気は晴れ」コンピュータくん

音声認識「コンピュータが、自身の脳の中にある音の知識と言語の知識を駆使して、音声を自動でテキスト化する技術」 • 音の知識のイメージ ◦ 「あ」の音はこんな波形、「サッカー」という音はこんな波形、、、 ◦ 人間は「あ」という音を聞いたら、「これは”あ”という音だな」と分かる ⇒人間は「あ」という音がどんな波形であるかの知識を持っている

音声認識「コンピュータが、自身の脳の中にある音の知識と言語の知識を駆使して、音声を自動でテキスト化する技術」 • 言語の知識のイメージ ◦ 文字や単語の並びが自然かどうかを判断する知識「彼は晩ごはんに焼き肉を食べました」　　⇐自然「彼は晩ごはんにサッカーを食べました」　⇐不自然 →焼き肉が食べ物でサッカーが食べ物ではない、という知識を人間が持っているか
らこそ、自然かどうかを判断できる

音声合成

音声合成「コンピュータが、自身の脳の中にある音の知識と言語の知識を駆使して、テキストから音声を合成する技術」動詞、名詞、形容詞… コンピュータくん「天気は晴れ」てんきははれ ten-ki-wa-hare アクセント、
イントネーション

超簡易版　音声合成の歴史 • ルールベース（職人芸）：フォルマント合成（1990年以前） ◦ 手動ルールによる各音素（/a/や/k/など）の素片を構築 ◦ e.g., AquesTalk（いわゆる「ゆっくりボイス」） • コーパスベース：波形接続型音声合成（1990年〜）
◦ 音声データベースから音声素片を接続し合成 ◦ e.g., ボーカロイド • コーパスベース：統計的パラメトリック音声合成（1995年〜） ◦ 音声データベースから統計的に音声を予測し合成 ◦ 隠れマルコフモデル/深層学習による音声合成 ◦ e.g. CeVIO 参考 https://www.sp.nitech.ac.jp/~tokuda/tokuda_ongaku2013.pdf

統計的音声合成の概要出典『音響学入門ペディア』（コロナ社）

音声認識と音声合成の超入門

音声認識と音声合成の超入門

Akira Tamamori

More Decks by Akira Tamamori

Other Decks in Technology

Featured

Transcript

音声認識

音声認識「コンピュータが、自身の脳の中にある音の知識と言語の知識を駆使して、音声を自動でテキスト化する技術」てんきははれ天気は晴れてんきわはれ点際晴れてんきはれい

音声合成

音声合成「コンピュータが、自身の脳の中にある音の知識と言語の知識を駆使して、テキストから音声を合成する技術」動詞、名詞、形容詞… コンピュータくん「天気は晴れ」てんきははれ ten-ki-wa-hare アクセント、

統計的音声合成の概要出典『音響学入門ペディア』（コロナ社）