Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Azure Speech で音声対応してみよう
Search
kosmosebi
April 17, 2026
Technology
230
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Azure Speech で音声対応してみよう
https://tfsug.connpass.com/event/387038/
kosmosebi
April 17, 2026
More Decks by kosmosebi
See All by kosmosebi
ローカルでLLMを使ってみよう
kosmosebi
0
280
Global Azure 2025 @ Kansai / Hyperlight
kosmosebi
0
300
パッチワークでAIアシスタントを作ろう
kosmosebi
1
300
Visual StudioとかIDE関連小ネタ話
kosmosebi
1
590
使ってみよう Azure AI Document Intelligence
kosmosebi
2
1.9k
たぶんAzureとかでAIが多めな話
kosmosebi
0
150
Other Decks in Technology
See All in Technology
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
820
【Cyber-sec+】経営層を"動かす"ための考え方
hssh2_bin
0
130
2026 TECHFRESH 畢業分享會 - 開發日常大解密!從領域驅動到企業級上線
line_developers_tw
PRO
0
820
2026TECHFRESH畢業分享會 - Lightning Talk - 打造精準高效的 MCP 設計模式與測試實務
line_developers_tw
PRO
0
830
Socrates × Looker 〜セマンティックレイヤーで進化するデータ分析エージェント〜
hanon52_
3
2.1k
Djangoユーザが知っ得なPostgreSQL機能 - 設計の選択肢を増やす / Djang-use-PostgreSQL
soudai
PRO
1
230
爆速でマルチプロダクトを立ち上げる時 事業・CTO目線で大事にしたい事
miyatakoji
0
100
2026TECHFRESH畢業分享會 - 原生還是跨平台? App 開發踩坑實錄
line_developers_tw
PRO
0
830
社内 AI エージェント Synapse と セマンティックレイヤーの育て方
hiroakis
2
1.7k
Amazon Bedrock AgentCore ワークショップ JAWS UG TOHOKU / amazon-bedrock-agentcore-workshop-jawsug-tohoku-2026
gawa
9
710
NAB Show 2026 動画技術関連レポート / NAB Show 2026 Report
cyberagentdevelopers
PRO
0
170
日本 Fintech 未来予測レポート 2027〜2028年(手動編集版)
8maki
0
2k
Featured
See All Featured
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.5k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
580
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
400
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
410
The Cost Of JavaScript in 2023
addyosmani
55
10k
Designing for humans not robots
tammielis
254
26k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
54k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
6k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
190
Transcript
Azure Speech で 音声対応してみよう @kosmosebi Global Azure 2026 @ Kansai
2026-04-18 1
Self Introduction { "name": "Keiji KAMEBUCHI", "corporation": "pnop Inc.", "web":
"https://azure.moe/", "X": "@kosmosebi", "awards": [ "Microsoft Regional Director" ], "location": "Osaka, Japan", "YouTube": "https://www.youtube.com/@kosmosebi" } Senior Fellow @kosmosebi 2
• 昨今音声であれこれやり取りするケースも増えてきた? • 今時のクラウドでは何ができるのか知っておきたい • オフラインの需要もあるけど今回は割愛 • 主に Microsoft Azure
上のサービスで使えるものをピックアップ Introduction 3
Agenda • 音声対応って? • Azure Speech • 音声 → テキスト変換
• テキスト → 音声変換 • その他の機能 • まとめ 4
音声対応って? • 音声対応といってもいろいろ • 音声 → テキスト (STT: Speech to
Text) • 音声を識別してテキストに変換する • リアルタイムでの変換、動画の文字起こしなど • テキスト → 音声 (TTS: Text to Speech) • テキストをもとに合成音声を生成する • ナレーションやアバターの音声など • 活用例 • 音声で ChatGPT や Copilot とやりとり • 動画の字幕 • PC の音声コントロールやナビゲーション、スクリーンリーダー • そんな感じの機能を自分たちのアプリやサービスに追加したい 5
Azure Speech • Microsoft Azure では現在 Microsoft Foundry Tools として
Azure Speech が提供中 • もともとは Project Oxford から始まり Cognitive Services、Azure AI services と名称(分類?)が変遷してきた(はず) • できること • 音声 → テキスト変換 • テキスト → 音声変換 • 音声合成アバター • 音声翻訳 • LLM音声 • 言語識別 • 発音評価 • Docker コンテナーによるローカル/オフライン処理 6
とりあえず試したい • Microsoft Foundry (ai.azure.com) 内で Playground が 利用可能 •
サインイン不要のものなら旧 Speech Studio も利用できるが、、 • 現状 Speech Studio は Azure Portal で作ったリソースから行かないと Foundry Portal に強制リダイレクトされたりする • Speech CLI • Azure Speech を使用する CLI • 一部高度な機能やカスタマイズは省略されてたりする • 利用するには API キーが必要(= Azure リソースが必要) • 利用者の情報(容姿や声など)を使った機能などは Microsoft の責任ある AI の原則のもとでアクセス申請が必 要なケースがある 7
音声 → テキスト変換 (STT) • 音声をテキスト情報に変換する機能 • できること • 音声のテキスト化
• リアルタイム(ストリーム)での変換 • バッチ処理 • 話者識別 • 言語検出 • フレーズリスト • カスタム音声 • イントネーションや方言対応、語彙の追加などに対応するために専用の音声テキ スト変換モデルを作成する 8
テキスト → 音声変換 (TTS) • テキストから合成音声を生成する機能 • できること • リアルタイムの音声合成
• バッチ処理 • SSML (音声合成マークアップ言語)を使った音声の調整 • 口形素(Viseme)の出力 • 高解像度(HD)音声 • 音声変換 • カスタム音声* • テキスト読み上げアバター 9 * 一部要申請
音声ギャラリー • Speech Studio で試すのがわかりやすい 10
アバターチャット • Azure Speech • STT/TTS • ストリーム処理 • 口形素(Viseme)
• テキスト読み上げ アバター • Azure OpenAI • Chat Completions 11
カスタム音声:パーソナル音声* • 自分の声を使って TTS を行える • 1音声程度サンプリングするだけで数秒で音声モデルが利用可能に 12
その他の機能 • 音声翻訳 • 音声を翻訳してテキスト化および別の言語の音声に (多言語→翻訳言語) • ライブインタープリター* … 話者の音声の特徴のままで翻訳音声に
• LLM 音声 • LLM を使って音声の文字起こしや翻訳を行う • Voice Live • 低遅延なリアルタイムの音声エージェント向けの機能 • 音声 to 音声で Agent とやり取りしたり Avatar 連携など • Azure OpenAI Realtime API +α な強化版 13 * 要申請
その他の機能 • キーワード認識 • 音声から特定キーワードを検出できるカスタムモデルを作ることがで きる • デバイス上で動作可 • 埋め込み音声*
• ローカル上で STT と TTS をするためのモデル • コンテナー • STT や TTS、音声言語識別を行うことができる Docker コンテナー • 課金関連の情報だけ Azure に送信する • インターネットから切断されたコンテナー* • コミットメントプランが必要 14 * 要申請
Voice Live • 音声 to 音声のやり取りを Voice Live API だけで完結
• コード側で STT や TTS、LLMとの処理が不要 15
まとめ • 音声データの扱いが面倒だけど、仕組みは単純 • SDK 使えば割と簡単なはず • 組み合わせや細かい機能含めていろいろ活用場面は多い • 今まで諦めてしまっていた機能を実現してみよう
• 足らない部分など、いろいろ工夫してみましょう • Wake word、オフライン対応、レイテンシー、ノイズ対策他 • アプリやサービス、エージェントに組み込んで音声対応 してみましょう 16
おまけ • Windows 11 における音声ナビゲーションとコントロール • 音声アクセス • 音声による操作、入力 •
Windows Vista ぐらいの時は Windows Speech Recognition とかだった • ナレーター • いわゆるスクリーンリーダー • 点字ディスプレイもサポート • 残念ながら既存のサービスでは未知の言語に対する STT はできないので 異なるアプローチが必要(ロッキーと会話するにはもう少し工夫が必要) • サンプルコード • https://github.com/Azure-Samples/cognitive-services-speech-sdk/tree/master/samples/ • https://github.com/buchizo/Demos 17