Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Azure Speech で音声対応してみよう

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

Azure Speech で音声対応してみよう

Avatar for kosmosebi

kosmosebi

April 17, 2026

More Decks by kosmosebi

Other Decks in Technology

Transcript

  1. Self Introduction { "name": "Keiji KAMEBUCHI", "corporation": "pnop Inc.", "web":

    "https://azure.moe/", "X": "@kosmosebi", "awards": [ "Microsoft Regional Director" ], "location": "Osaka, Japan", "YouTube": "https://www.youtube.com/@kosmosebi" } Senior Fellow @kosmosebi 2
  2. Agenda • 音声対応って? • Azure Speech • 音声 → テキスト変換

    • テキスト → 音声変換 • その他の機能 • まとめ 4
  3. 音声対応って? • 音声対応といってもいろいろ • 音声 → テキスト (STT: Speech to

    Text) • 音声を識別してテキストに変換する • リアルタイムでの変換、動画の文字起こしなど • テキスト → 音声 (TTS: Text to Speech) • テキストをもとに合成音声を生成する • ナレーションやアバターの音声など • 活用例 • 音声で ChatGPT や Copilot とやりとり • 動画の字幕 • PC の音声コントロールやナビゲーション、スクリーンリーダー • そんな感じの機能を自分たちのアプリやサービスに追加したい 5
  4. Azure Speech • Microsoft Azure では現在 Microsoft Foundry Tools として

    Azure Speech が提供中 • もともとは Project Oxford から始まり Cognitive Services、Azure AI services と名称(分類?)が変遷してきた(はず) • できること • 音声 → テキスト変換 • テキスト → 音声変換 • 音声合成アバター • 音声翻訳 • LLM音声 • 言語識別 • 発音評価 • Docker コンテナーによるローカル/オフライン処理 6
  5. とりあえず試したい • Microsoft Foundry (ai.azure.com) 内で Playground が 利用可能 •

    サインイン不要のものなら旧 Speech Studio も利用できるが、、 • 現状 Speech Studio は Azure Portal で作ったリソースから行かないと Foundry Portal に強制リダイレクトされたりする • Speech CLI • Azure Speech を使用する CLI • 一部高度な機能やカスタマイズは省略されてたりする • 利用するには API キーが必要(= Azure リソースが必要) • 利用者の情報(容姿や声など)を使った機能などは Microsoft の責任ある AI の原則のもとでアクセス申請が必 要なケースがある 7
  6. 音声 → テキスト変換 (STT) • 音声をテキスト情報に変換する機能 • できること • 音声のテキスト化

    • リアルタイム(ストリーム)での変換 • バッチ処理 • 話者識別 • 言語検出 • フレーズリスト • カスタム音声 • イントネーションや方言対応、語彙の追加などに対応するために専用の音声テキ スト変換モデルを作成する 8
  7. テキスト → 音声変換 (TTS) • テキストから合成音声を生成する機能 • できること • リアルタイムの音声合成

    • バッチ処理 • SSML (音声合成マークアップ言語)を使った音声の調整 • 口形素(Viseme)の出力 • 高解像度(HD)音声 • 音声変換 • カスタム音声* • テキスト読み上げアバター 9 * 一部要申請
  8. アバターチャット • Azure Speech • STT/TTS • ストリーム処理 • 口形素(Viseme)

    • テキスト読み上げ アバター • Azure OpenAI • Chat Completions 11
  9. その他の機能 • 音声翻訳 • 音声を翻訳してテキスト化および別の言語の音声に (多言語→翻訳言語) • ライブインタープリター* … 話者の音声の特徴のままで翻訳音声に

    • LLM 音声 • LLM を使って音声の文字起こしや翻訳を行う • Voice Live • 低遅延なリアルタイムの音声エージェント向けの機能 • 音声 to 音声で Agent とやり取りしたり Avatar 連携など • Azure OpenAI Realtime API +α な強化版 13 * 要申請
  10. その他の機能 • キーワード認識 • 音声から特定キーワードを検出できるカスタムモデルを作ることがで きる • デバイス上で動作可 • 埋め込み音声*

    • ローカル上で STT と TTS をするためのモデル • コンテナー • STT や TTS、音声言語識別を行うことができる Docker コンテナー • 課金関連の情報だけ Azure に送信する • インターネットから切断されたコンテナー* • コミットメントプランが必要 14 * 要申請
  11. Voice Live • 音声 to 音声のやり取りを Voice Live API だけで完結

    • コード側で STT や TTS、LLMとの処理が不要 15
  12. まとめ • 音声データの扱いが面倒だけど、仕組みは単純 • SDK 使えば割と簡単なはず • 組み合わせや細かい機能含めていろいろ活用場面は多い • 今まで諦めてしまっていた機能を実現してみよう

    • 足らない部分など、いろいろ工夫してみましょう • Wake word、オフライン対応、レイテンシー、ノイズ対策他 • アプリやサービス、エージェントに組み込んで音声対応 してみましょう 16
  13. おまけ • Windows 11 における音声ナビゲーションとコントロール • 音声アクセス • 音声による操作、入力 •

    Windows Vista ぐらいの時は Windows Speech Recognition とかだった • ナレーター • いわゆるスクリーンリーダー • 点字ディスプレイもサポート • 残念ながら既存のサービスでは未知の言語に対する STT はできないので 異なるアプローチが必要(ロッキーと会話するにはもう少し工夫が必要) • サンプルコード • https://github.com/Azure-Samples/cognitive-services-speech-sdk/tree/master/samples/ • https://github.com/buchizo/Demos 17