Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
桃太郎デスマッチ ー Azure / AWS / GCP で Speech-To-Text の...
Search
堀尾風仁 Futo Horio
January 23, 2020
Business
2
910
桃太郎デスマッチ ー Azure / AWS / GCP で Speech-To-Text の結果を比べてみた!
2020/01/23 : Microsoft Ignite The Tour : Osaka
UNC10033 アンカンファレンスセッション
LT登壇資料 / 株式会社神戸デジタル・ラボ
堀尾風仁 Futo Horio
January 23, 2020
Tweet
Share
More Decks by 堀尾風仁 Futo Horio
See All by 堀尾風仁 Futo Horio
Azure Digital Twins と Azure SignalR Service を使って IoT データを Mixed Reality に接続する
futo23
0
200
MRTK Graphics Tools Overview - 概要説明
futo23
0
280
MRTK3 - DataBinding and Theming 入門
futo23
0
740
Microsoft Mesh に学ぶ Mixed Reality の気持ちの良い UX とは? ーMRTK v2.7.3 で実験してみた
futo23
0
420
MRTK Test Utilities で始めるテスト駆動開発 (TDD) 入門 | XR Kaigi 2021
futo23
1
1.1k
Azure Remote Rendering Recap - サービス概要と活用事例
futo23
1
3k
デブサミ2021 - 不確定要素が強い時代の生存戦略 ― U30が「好きなコト」で突き抜けるためには!?
futo23
1
1.4k
MR Dev Days Japan 前夜祭 - Azure Remote Rendering のご紹介
futo23
1
800
不確定要素の強い時代の生存戦略 ー U30が好きなコトで突き抜けるためには?[Session17]
futo23
0
3.1k
Other Decks in Business
See All in Business
요즘 팀장 생존법 (SLIT-CON)
lemonadegt
0
190
SmartBank - Recruiting Deck
smartbank
10
200k
バイセルのものさし(Ver. 1.1)
buyselltechnologies
0
190
パレットクラウド株式会社 採用ピッチ資料
palettecloud
0
5.5k
XENDOU会社概要
xendou
0
180
ログラス会社紹介資料 新卒採用 ビジネス職[経営幹部候補]/ Loglass Company Deck
loglass2019
0
700
DeFimans 会社紹介資料 Company Deck
defimans
0
210
会社案内資料
mkengineering
1
160
株式会社kubellストレージ 会社説明資料
kubell_storage
2
250
【metimo】「『似合う』を楽しもう。」
hinalin
0
560
経営組織論〜ソニックガーデンの場合(2024/11版)
kuranuki
0
490
ビジネスの変化に迅速に反応 質・量どちらも追及する 星野リゾートのノーコード戦略
junkokotake
0
260
Featured
See All Featured
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
840
4 Signs Your Business is Dying
shpigford
180
21k
Designing for Performance
lara
604
68k
The Language of Interfaces
destraynor
154
24k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
93
16k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
Building a Scalable Design System with Sketch
lauravandoore
459
33k
Embracing the Ebb and Flow
colly
84
4.5k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
131
33k
Optimizing for Happiness
mojombo
376
70k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
890
Ruby is Unlike a Banana
tanoku
97
11k
Transcript
桃太郎デスマッチ Azure / AWS / GCP で Speech-To-Text の結果を比べてみた! 登壇者
堀尾 風仁 / 株式会社神戸デジタル・ラボ ハッシュタグ #azuretechlove M i c r o s o f t I g n i t e T h e T o u r : O s a k a 登 壇 資 料 Theater 3 / UNC10033 / 14:50~16:00 (70分)
・ 堀 尾 風 仁 ・ ・ 神 戸 デ
ジ タ ル ・ ラ ボ ・ 新 事 業 創 造 係 班 班 長 ・ ・ コ ミ ュ ニ テ ィ オ ー ガ ナ イ ザ ー A B O U T M E https://codezine.jp/article/detail/11433 © 2019 Kobe Digital Labo, Inc. All Rights Reserved. © 2019 Kobe Digital Labo, Inc. All Rights Reserved. © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
突然ですが、、 こんなこと考えたことないですか? © 2019 Kobe Digital Labo, Inc. All Rights
Reserved.
桃太郎を朗読して Speech To Text をすると、 Azure / AWS / GCP
で どのくらい精度に差が生まれるのだろう? © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
実際やってみたので、 今日はそのお話をします! © 2019 Kobe Digital Labo, Inc. All Rights
Reserved.
学習済みAI (人工知能) サービス比較表 : まずは 3大クラウド ( Azure / AWS
/ GCP ) の概要 Cognitive Services AI Service Cloud AI https://aws.amazon.com/machine-learning/?nc1=h_ls https://cloud.google.com/products/ai/building-blocks/ https://azure.microsoft.com/services/cognitive-services/ 機械学習の専門知識がなくても、あらゆる開発者が利用することができます。 必要なのは、見る、聞く、話す、検索する、理解する、そして意思決定を 加速させるための機能をアプリに埋め込む API 呼び出しです。 AWS の事前トレーニング済み AI サービスでは、アプリケーションや ワークフロー用のすぐに使えるインテリジェンスが提供されます。 AWS の AI サービスでは機械学習の経験は必要ありません。 AI を簡単に既存アプリケーションと連携させたり、インテリジェントな アプリケーションを新たに構築したりして、さまざまなユースケースに 対応できます。 サービス (概要) 公式ページ (画面) 提供元 クラウド ( URL ) API (数) 27 種類 12 種類 10 種類 © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
Cloud Text-to-Speech API Cloud Speech-to-Text API 決定 (分析/予測) Anomaly Detector
(プレビュー) Content Moderator Personalizer Amazon Personalize Amazon Forecast Amazon Fraud Detector Recommendations AI (BETA) Cloud Inference API (BETA) AutoML Tables (BETA) 言語 音声 検索 視覚 Immersive Reader (プレビュー) Language Understanding QnA Maker Text Analytics Translator Text Bing Autosuggest Bing Custom Search Bing Entity Search Bing Image Search Bing News Search Bing Spell Check Bing Video Search Bing Visual Search Bing Web Search Speech to Text Text to Speech Speech Translation Speaker Recognition (プレビュー) Computer Vision Custom Vision Face Form Recognizer (プレビュー) Ink Recognizer (プレビュー) Video Indexer Vision AI Video AI Cloud Text-to-Speech API Cloud Speech-to-Text API Translation Natural Language Dialogflow Amazon Kendra Amazon Rekognition Amazon Polly Amazon Transcribe Amazon Textract Amazon Translate Amazon Comprehend Amazon Lex Amazon Codeguru サービス無し 学習済みAI (人工知能) サービス : 3大クラウドのラインナップを調べてみた © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
Cloud Text-to-Speech API Cloud Speech-to-Text API 学習済みAI (人工知能) サービス :
Speech To Text 比較 ( 音声 → テキスト ) スペック比較 サービス名 対応言語 ( 1人 / 複数人 / ストリーミング ) ※1 プログラミング言語 開発ドキュメント ( 日本語対応 ) Speech to Text Amazon Transcribe Cloud Speech-to-Text API カスタム語彙 ( カスタマイズ可能かどうか ) 31 / 記載なし / 6 39 / 2 / 記載なし 120 / 記載なし / 記載なし ◦ 特徴 https://docs.microsoft.com/ja-jp/azure/ cognitive-services/speech-service/speech-to-text ・発話言語特定(4言語) ・シーンに応じて複数モデル選択可 Java, Python + (※CLI) C++, C#, Java, Javascript, Node.js Objective-C, Python, Swift C#, Go, Node.js, JAVA PHP, Python, RUBY + (※CLI) ◦ ・種類豊富なSDK/クイックスタート ・明瞭なサービスの切り分け https://docs.aws.amazon.com/transcribe /latest/dg/what-is-transcribe.html https://cloud.google.com/ products/ai/building-blocks/ ・話者識別 (2~10名) が可能 ・医療業界に特化した認識モデルがある ◦ ※1 同一言語、他方言含む。 © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
学習済みAI (人工知能) サービス : Speech To Text 比較 ( 音声
→ テキスト ) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. 3大クラウドの 音声認識サービスの精度 を比較してみました! 【 評価項目 】 1. 同一音声ファイルをアップロードし精度を検証する。 2. 対応音声ファイル形式 3. 開発のしやすさ ( 環境構築 ) 4. ドキュメントの読みやすさ ( 日本語 ) vs vs
© 2019 Kobe Digital Labo, Inc. All Rights Reserved. 実際にそれぞれの
クイックスタート を試してみた ( Azure 編 ) 【 事前準備 】 Azrue MarketPlace より Speech Service サブスクリプションキーを発行する 【 手順 】サンプルを Web Apps にホストするまで (作業目安: 10分~15分) 1. Azure-Samples/cognitive-services-speech-sdk の GitHubリポジトリをクローン 2. pip install --upgrade azure-cognitiveservices-speech ( SDKインストール ) 3. quickstart.py に修正を加える (サブスクリプションキー&使用リージョン&ファイルパス) 4. 日本語変換に対応するため speech_config の設定を追加する 5. resource 配下に 対象の音声ファイルを追加 6. $ python quickstart.py を実行 https://github.com/Azure-Samples/cognitive-services-speech-sdk
実際にそれぞれの クイックスタート を試してみた ( AWS 編 ) © 2019 Kobe
Digital Labo, Inc. All Rights Reserved. 【 事前準備 】 AWS CLI セットアップ / SDK for Python (boto3) インストール 【 手順 】サンプルを 動作検証するまで (作業目安: 10分~15分) 1. 今回解析する 音声ファイル (mp4) を S3 にアップロードする 2. ご利用開始にあたって (SDK for Python) ページを開く 3. サンプルの Python スクリプトを追加&修正を加える (音声の言語指定&ファイル拡張子&リージョン) 4. python スクリプトを実行 (今回はコンソール画面で結果を確認)
実際にそれぞれの クイックスタート を試してみた ( GCP 編 ) © 2019 Kobe
Digital Labo, Inc. All Rights Reserved. 【 手順 】サンプルを 動作検証するまで (作業目安: 20~25分) 1. クライアントライブラリをインストールする 2. サンプルの Python スクリプトを追加&修正を加える (音声ファイルパス&エンコード方式& サンプリング周波数を指定) 4. python スクリプトを実行 ( 結果確認 ) 【 事前準備 】 プロジェクトの作成 / Cloud SDK のインストール / 環境変数の設定 (GOOGLE_APPLICATION_CREDENTIALS )
実際にそれぞれの クイックスタート を試してみた ( 検証その1 ) © 2019 Kobe Digital
Labo, Inc. All Rights Reserved. 【 同じ音声ファイルを3つのクラウドで検証してみる (短文) 】 みなさん、こんにちは。こちらは UNC10033 のアンカンファレンスセッションになります。 ( AWS 結果 : △ ) 皆さん こんにちは こちら は に 始まる 丸 三 さん の アンカンファレンス セッション に なり ます ( Azure 結果 : 〇 ) 皆さんこんにちはこちらはun c一一〇〇さんさんの案カンファレンスセッションになります。 ( GCP 結果 : ◎ ) 音声エンコーディング形式が非対応だったので FLAC に変換 皆さんこんにちはこちらは unc 10033のアンカンファレンスセッションになります
実際にそれぞれの クイックスタート を試してみた ( 検証その2 ) © 2019 Kobe Digital
Labo, Inc. All Rights Reserved. 【 同じ音声ファイルを3つのクラウドで検証してみる (長文) 】 むかしむかし、あるところに、おじいさんとおばあさんが住んでいました。 おじいさんは山へしばかりに、おばあさんは川へせんたくに行きました。 おばあさんが川でせんたくをしていると、ドンブラコ、ドンブラコと、大きな桃が流れてきました。 「おや、これは良いおみやげになるわ」 おばあさんは大きな桃をひろいあげて、家に持ち帰りました。 そして、おじいさんとおばあさんが桃を食べようと桃を切ってみると、 なんと中から元気の良い男の赤ちゃんが飛び出してきました。 「これはきっと、神さまがくださったにちがいない」 子どものいなかったおじいさんとおばあさんは、大喜びです。 桃から生まれた男の子を、おじいさんとおばあさんは桃太郎と名付けました。 桃太郎はスクスク育って、やがて強い男の子になりました。 この長文を 3大クラウド ( Azure / AWS /GCP ) で試してみると、どうなるか!? vs vs
実際にそれぞれの クイックスタート を試してみた ( 検証その2 ) © 2019 Kobe Digital
Labo, Inc. All Rights Reserved. 【 Azure: 結果 】 昔昔あるところにおじいさんとおばあさんが住んでいました。 おじいさんは山へ芝刈りにおばあさんは川へ洗濯に行きました。 お婆さんが、川で洗濯をしていると、どんぶらこド ンブラコとokina桃が流れてきました。 おや、これは良いおみやげになるわ。 おばあさんは大きな桃を拾い上げて家に持ち帰りました。 そしておじいさんとおばあさんが桃を切って食べようとモモを切っ てみると なんと中から元気の良い男の赤ちゃんが飛び出してきました。 これはきっと神様が下さったに違いない。 子供のいなかったおじいさんとおばあさんは大喜びです。 桃から生まれた男の子をおじいさんとおばあさんは桃太郎と名付けました。 桃太郎はすくすく育ってやがてしい男の子になりました。 ⇒誤認識はあるが音の認識はあっている (表記揺れがある)・・・〇
実際にそれぞれの クイックスタート を試してみた ( 検証その2 ) © 2019 Kobe Digital
Labo, Inc. All Rights Reserved. 【 AWS: 結果 】 昔 昔 ある ところ に お おじいさん と おばあさん が 住ん で い まし た お爺さん は 山 へ し ばかり に おば さん は 可愛い 選択 に 行き まし た おば さん が 川 で 選択 を し て いる と ドンブラコ ドンブラコ と 大きな もの が 流れ て き まし た 親 これ は 良い お 土産 に なる わ おば さん は 大きな もの を 拾い上げ て 家 に 持ち帰り まし た そして お 爺 さん と お 婆 さん が 思う 切っ て 食べよ と 桃 を 切っ て みる と なんと 中 から 元気 の 良い 男 の 赤ちゃん が 飛び出し て き まし た これ は きっと 神様 が 下さ た に 違い ない 子供 の い なかっ た お 爺 さん と お 婆 さん は お 喜び です 桃 から 生まれ た 男の子 お おじいさん と おばあさん は 桃太郎 と 名付け まし た 桃太郎 は すくすく 育っ て やがて 強い 男の子 に なり まし た ⇒ かなり誤認識が多い印象 (漢字へのご変換、テキストの過不足)・・・△
実際にそれぞれの クイックスタート を試してみた ( 検証その2 ) © 2019 Kobe Digital
Labo, Inc. All Rights Reserved. 【 AWS: 結果 】 昔々あるところにおじいさんとおばあさんが住んでいました おじいさんは山へ芝刈りにおばあさんは川へ洗濯に行きました おばあさんが川で洗濯をしているとどんぶらこどんぶらこと大きな桃が流れてきました おやこれは良いお土産になるわ おばあさん は大きな桃を拾い上げて家に持ち帰りました そしておじいさんとおばあさんが桃を切って食べようと桃を切ってみると なんと中から元気に泳い男の赤ちゃんが飛び出してきました これはきっと神様がくださったに違いない 子供のいなかったおじいさんとおばあさんは大喜びです 桃から生まれた男の子をおじいさんとおばあさんは桃太郎と名付けました 桃太郎はスクスク育ってやがて強い男の子になりました ⇒ ほとんど誤認識がない ( 短文にも長文にもどちらにも対応可能 ) ・・・◎
Cloud Text-to-Speech API Cloud Speech-to-Text API 学習済みAI (人工知能) サービス :
Speech To Text の比較 (主観含む) サービス名 対応ファイル形式 ドキュメント読みやすさ (※2) Speech to Text Amazon Transcribe Cloud Speech-to-Text API 音声認識の精度 (長文) ※1, ※2 筆者の主観的判断です。 料 金 体 系 開発のしやすさ (※1) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. ◎ △ ◦ ・ドキュメント内の画像も豊富 ・ドキュメント量も多い ・簡潔で分かりやすいが、 トラブルシューティングが少ない ・ドキュメントページのデザインが良い ・必要な情報にすぐに到達できる 12ヶ月60分無料 ( 以降 0.0004USD / 1秒 ) ( ¥158.35 / 時間 ) ※ 15 秒未満のリクエストについては 15 秒分の料金が発生 Free : 1 か月あたり 5 百万文字まで無料 Standard : ¥112 / 時間 同時接続数 ( Free 1個 / Standard: 20個 ) 標準 : 60分まで無料 (以降、$0.006 / 15秒) プレミアム : $0.009 / 15秒 ※ 標準の場合使用モデルが限定される = < mp3 | mp4 | wav | flac 拡張子ではなく音声エンコーディング FLAC, LINEAR16, MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE wav ( PCM 0 ) , OGG (オーパス) [バッチ形式(有料)のみ MP3追加] < > 〇 △ ◎
桃太郎デスマッチ: まとめ © 2019 Kobe Digital Labo, Inc. All Rights
Reserved. ・精度の順で並べると、残念ながら今回は GCP> Azure > AWS の順となった。 ・ドキュメントきめ細やかさは Azure > GCP > AWS のように感じた (主観) ・開発SDKの豊富さの順でも Azure = GCP > AWS となった (CLI含む) 3大クラウドサービスを比較してみて感じたこと ・Azure (精度と導入しやすさバランス) / AWS (AWS他サービスとの連携:S3) / GCP (精度一点重視) ・カスタムせずに汎用的なモデルのみを使用する場合だと GCP が一番精度が高い。 ・学習済みAIサービスの種類(数)は、Azure ≫ AWS > GCP の順となり、 明確な用途があるのであれば Azure が一番手っ取り早く導入できる印象を受けた。 ・句読点が反映されるのは Azure だけ (標準設定) だった ・利用料金でいうと、Azure < AWS = GCP となるので Azure が一番安い。 ・GCPは細かなチューニングができる分、検証時に詰まるポイントが多いように感じた。
Thanks © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
ご清聴ありがとうございました!