Upgrade to Pro — share decks privately, control downloads, hide ads and more …

WatsonCafe_3.pdf

yanagih
March 10, 2022

 WatsonCafe_3.pdf

yanagih

March 10, 2022
Tweet

More Decks by yanagih

Other Decks in Business

Transcript

  1. 2017/3 電話会話の⾳声認識 2019/5 ニュースの⾳声認識 Watson STTは IBM Researchの最先端の研究成果を 随時取り込んでいます NISTにおけるWERの変遷

    0 5 10 15 20 25 1999 2004 2009 2014      5.1%   • 2017/3 深層学習技術を改良し NIST(⽶国⽴標準技術研究所) Switchboard でWER(Word Error Rate) 5.5%(世界最⾼)を 達成 • 2017/9には、ヒトと同⽔準であると考えられるWER5.1%を 達成したことを論⽂発表 研 究 の 対 象 は ︑ 異 な る ⾳ 声 へ ニ " # ス ⾳ 声 は 書 き ⾔ 葉 に 近 い が ︑ 話 者 ・ 話 し ⽅ ・ 雑 ⾳ ・ 話 題 が 多 岐 に わ た る 3 • ヒトと同等性能を達成した、電話会話の⾳声認識で開発した 技術を 2つのニュース放送のテストデータに適⽤ • それぞれ WER 6.5%, 5.9%という新しいマイルストーンを 達成し、これまで開発してきた技術が 異なる⾳声にも適⽤可 能であることを証明 • ⼀⽅で、このテストデータに対するヒトのWERはそれぞれ 3.6%, 2.8%であり、ヒトのレベルに到達するにはまだ ⼤きな改善余地があることも確認 https://arxiv.org/abs/1703.02136 https://arxiv.org/abs/1904.13258 ニュースの⾳声認識精度で IBMが業界最⾼の性能を達成
  2. © 2022 IBM Corporation 5 ⾳声認識の精度評価 p 単語誤り率(WER, Word Error

    Rate) • 世界標準で利⽤される⾳声認識精度の評価基準 • 英語で利⽤される場合が多い 19語 誤り︓3語 ⽂字の「挿⼊」 1語︓ some ⽂字の「削除」 1語︓ The ⽂字の「置換」 1語︓ with 3/19 = 0.1578… Word Error Rate (WER) = 15.8% The WER is a valuable tool for comparing different systems as well as for evaluating improvements within one system. 正解⽂章 (The) WER is a valuable tool for comparing some different systems as well as for evaluating improvements with one system. ⾳声認識結果 定量的評価 評価項⽬︓⾳声認識率の計算⽅法(英語) 単語誤り率(WER)を⽤いた⽂字認識(正解)率計算⽅法
  3. © 2022 IBM Corporation 6 ⾳声認識の精度評価 評価項⽬︓⾳声認識率の計算⽅法(⽇本語) ⽂字誤り率(CER)を⽤いた⽂字認識(正解)率 p ⽂字誤り率(CER,

    Character Error Rate) • 世界標準で使われるWord Error Rateと同じ考え⽅。⽇本語で利⽤される場合が多い • ⽇本語は英語のように単語が分かれていないため、1⽂字を1単語として評価する • 100%(完全⼀致)からCERを引いたものが⽂字正解率と定義される 72⽂字 誤り︓6⽂字 ⽂字の「挿⼊」 2⽂字︓ ⼿え ⽂字の「削除」 2⽂字︓ かな ⽂字の「置換」 2⽂字︓ 談話 6/72 = 0.0833… Character Error Rate (CER) = 8.3% ⽂字認識(正解)率 = 100 – CER = 91.7% 定量的評価 年末⼤感謝キャンペーンの案内状が送られてきた のを⾒てお電話しました 結構安くなるみたいだ し 申し込もうかなと思ってるんですけど どう すればいいんですか 正解⽂章 年末⼤感謝キャンペーンの案内状が送られて⼿え きたのを⾒てお談話しました 結構安くなるみた いだし 申し込もう(かな)と思ってるんですけど どうすればいいんですか ⾳声認識結果
  4. © 2022 IBM Corporation 7 ⾳声認識技術の進化 (IBM東京基礎研究所の成果を反映) • 世界最⾼⽔準の⾳声認識技術を背景とした、ビジネス現場で安⼼して利⽤できる⾳声認識エンジンを 提供しております

    2015年5⽉ 認識誤り率 8% 2016年6⽉ 認識誤り率 6.9% 2017年3⽉ 認識誤り率 5.5% NIST Switchboardとい う電話⾳声会話の⾳声認 識を⾏うという公開ベン チマークテストで、IBM はそれまでの業界トップ の精度を36%上回る、認 識誤り率8%という精度 を達成しました。 ⾔語モデルと⾳響モデルの 両⽅の点でニューラルネッ トワークを改善することで さらに認識誤り率6.9%を 達成しました。 IBMとMicrosoftが6%近辺 で技術⾰新を競っています。 IBM東京基礎研究所がIBMワト ソン研究所のチームと協業し、 ディープラーニング・テクノロ ジーを活⽤した技術により、電 話会話⾳声認識で世界⼀の認識 率を達成しました。今回達成し た認識エラー率の5.5%は、⼈ 間の認識エラー率(単語誤り 率)とされる前代未到の5.1% にまた⼀歩近づく快挙です。 https://ibm.biz/BdiR4v 2017年9⽉ 認識誤り率 5.1% IBMはLSTM(Long Short Term Memory)を拡張し、内部に⾼速ネッ トワークを追加したHW-LSTM (Highway LSTM)を⽤いた⾔語モデル を⽤いることにより、⼈間の認識エ ラー率と同等と考えられている5.1% の単語誤り率を達成しました。この⾶ 躍的な前進は、 この分野における数 ⼗年に亘る研究開発と コグニティブ コンピューティング思考に基づく技術 ⾰新により達成されました。将来、よ り⾃然な形で⼈間と機械が相互に関わ りあえる世界を⽬指し、研究が進めら れています。 https://arxiv.org/abs/1709.06436 注︓⾳声認識の精度はテストセットの性質に依存します。この結果は専⽤のシステムを⽤いたSwitchboardテストセットでの精度です。 2021年最新状況 IBMリサーチにて 認識誤り率 4.3% を達成 https://arxiv.org/abs/2105.00982
  5. © 2022 IBM Corporation 8 次世代モデルの登場︕ 次世代モデルの解説記事 (Medium) 次世代モデルの基礎となるテクノロジ (論⽂)

    Advancing RNN Transducer Technology for Speech Recognition IBM Research AI, Yorktown Heights, USA Next-generation languages models !!!
  6. © 2022 IBM Corporation 9 ⾳声認識の仕組み 特徴抽出 認識エンジン ⾳響モデル ・⾳響の特徴量を元に⾳素の可能性を判定

    ⾔語モデル ・⾳素と単語表記を発⾳記号で紐付け ・⽂脈(前後の単語)から最もらしい単語列を判定 発話信号 単語列 発⾳辞書 適応 特徴 TEXT • メカニズム︓Traditional Speech Recognition System ⾳声認識処理には「⾳響モデル」と「⾔語モデル」の2種類のモデルが必要であり、それらは⾳声認識エンジンの両輪で す。IBMはこの技術を30年以上にわたって開発してきました。両モデルとも「確率モデル」で、確率値を統計的に算 出するものでしたが、現在は積極的にDeep Learning技術を採⽤し、さらに精度を⾼めています。 コーパス
  7. © 2022 IBM Corporation 10 次世代モデルのトクチョウ • 従来のモデルに⽐べ、 • 認識率の精度向上

    • 応答速度の向上 • カスタマイズに必要な時間の短縮 • TelephonyモデルとMultimediaモデルの2種類 • ⽇本語は現時点でMultimediaモデルのみ • 現時点でサポートされていないオプション • keywords • keywordsThreshold • wordAlternativesThreshold ... • 詳細は「Unsupported features for next-generation models」 (例)
  8. © 2022 IBM Corporation 12 Watson STTの主なユースケース ユースケース名 ユースケース概要 コンタクト・センタのエー

    ジェント⽀援 コンタクト・センタの⾳声をリアルタイムでテキスト化し、FAQなどのガイドをエージェントの画⾯ に表⽰します。 電話の⾃動応答 Assistantと連携して、電話の⾃動応答システムを実現します。 会議⽀援システム 会議における発⾔をテキスト化し、リアルタイムにモニタリングしたり議事録として保管します。 顧客の声分析 コンタクト・センタに記録されている顧客の通話ログをテキスト化し、Discoveryなどのテキスト マイニングツールに⼊⼒して分析を⾏います。 AI家電 スマートフォンのアプリケーションやIoT家電などを⾳声で操作します。 原稿書き起こし ボイスレコーダの⾳声データから、原稿データを書き起こします。
  9. © 2022 IBM Corporation 13 コンタクトセンタ・エージェント⽀援 (1/2) 課題 l 各エージェントが顧客からのあらゆる問い合わせに対応しており、熟練したスキルが要求される

    l エージェントや拠点によって回答品質や応答効率にばらつきがある ソリューション l 顧客とエージェントの間で交わされる会話を⾳声認識によってテキスト化する Speech to Text l テキスト化された問い合わせ内容を解析し、適切な回答候補や関連資料を検索して瞬時にダッシュボードに表⽰する Discovery 効果 l 新しいデータを追加して学習を進めるほど、⽀援できる回答の範囲が拡⼤ l 顧客とオペレーターの会話を“ 先読み”しながら回答候補や関連資料を提⽰ l システムの活⽤度が⾼いエージェントでは、問い合わせ1件あたりの応答時間を最⼤で30%程度短縮 JR東⽇本様では、Watson STTと検索エンジンであるWatson Discoveryとを組み合わせ、⼤規模なコンタクトセンタ・ エージェント ⽀援システムを利⽤なされています。他のWatson機能を組み合わせて、⾳声認識結果の活⽤までご⽀援することが可能です。
  10. ① エージェント⽀援ソリューション概要 1) エージェント⽀援 <メイン機能> •お客様とエージェントの対話をWatson Speech To Textでテキスト化し、Watson Discoveryで回答候補を検索。

    •ユーザーの明⽰的なトリガーなしに有益情報を確信度順に画⾯の所定欄に表⽰(Push型)。 ⾳響モデル ⾔語モデル Watson Speech to Text ⾳声認識エンジン ⾳声認識結果 データ (各種マニアル等) Watson Discovery 関連情報表⽰ PBX (ゲートウェイ) 問い合わせ 回答 お客様 エージェントー ⾳声信号 (お客様、エージェントー間の会話) 会話内容に最も関連するFAQ、ガイドライン・規約等を表⽰ ⾳声認識結果を表⽰ Watson Discovery (質問内容解析、 関連情報選定) ⾳声キャプチャ­ システム アプリケーション データベース
  11. © 2022 IBM Corporation 17 4QFFDI5P5FYU׆༻ࣄྫ ΠοπίϜ ʙ ίϯλΫτηϯλࢧԉ 4QFFDI5P5FYU

    %JTDPWFSZ +'& ʙ φϨοδݕࡧ 4QFFDI5P5FYU %JTDPWFSZ +3౦೔ຊ ʙ ίϯλΫτηϯλࢧԉ 4QFFDI5P5FYU %JTDPWFSZ
  12. © 2022 IBM Corporation 18 *#.8BUTPOࠃ಺࠾༻ࣄྫ IBM Watsonは2016年2⽉の⽇本語版提供 開始以降、国内で幅広い業界の多くのお客 様に導⼊いただいています。

    • ⾃動チャット、コンシェルジュ • 顧客コミュニケーションの⾼度化 • 知識拡張、知識継承 • 画像診断 • マッチング • 新サービス開発 • 業務プロセス改善 • 専⾨業務⽀援 等
  13. © 2022 IBM Corporation 20 STTのカスタマイズ ⾔語モデルと⾳響モデルのカスタマイズ 広帯域⽤(⼀般⽤) broadband[16kHz] ⾳響モデル

    ⾔語モデル 狭帯域⽤(電話⽤) narrowband[8kHz] ⾔語モデル カスタマイズ⽤ 辞書 • 単語[words] ü 発⾳、表記 • ⽂章[corpora] ü 単語の使⽤ ü 熟語 • ⽂法[grammer] ü ⼀定の⽂字列 ルール ⾳響モデル ⾔語モデル ⾳響モデル カスタマイズ⽤ ⾳声 ⾔語モデルのカスタマイズ 発⾳や表記を単語登録したり、単語の使われ⽅を ⽂章の例として登録 • 製品やサービス • 専⾨⽤語、業界⽤語 • 話し⾔葉 • 事前に定義可能な⽂字列・数字列 など ⾳響モデルのカスタマイズ 特別な環境に合わせて録⾳した⾳声ファイルを⾔語モデル と⼀緒にクラウド上に投⼊ • ノイズが⼤きい、マイクの品質が悪いなど録⾳環境が悪い • 話者が話し⽅が異常なケース (極端に速い、くだけた話し⽅) • アクセントが通常と異なる (ネイティブ・スピーカーではない) 標準モデル(2種類)をベースに⾃由にカスタマイズ可能 (複数のカスタマイズモデルを作成可能)
  14. © 2022 IBM Corporation 21 カスタマイズ機能 認識精度を向上させるためのさまざまな機能(1) • ⾔語モデルカスタマイズ機能 次の⽅法により業務に特化した内容などを学習させ認識精度をあげる仕組みです。

    - ⽂書登録︓ 業務固有の⽤語の⼊った⽂書を登録(この場合読み登録は⾏わない)。 - 単語登録︓ 特殊な⽤語、認識後⽂字表記、読み(カタカナで指定)をJson形式で登録 - カスタマイズした⾔語モデルとベースモデルの重み付けを調整できます。 - ⽂法登録 : 特定の単語(はい or いいえ)、個別の⽂字(名前)や⽂字数が固定されている数字列(会員番号)などを定義 します。 • ⾳響モデルカスタマイズ機能 - お客様環境での⾳声データを学習データとすることで、⾳響モデルのお客様個別カスタマイズ(雑⾳環境,発話スタイル,ア クセントなど)を⾏います。バックグラウンドにお客様環境固有のノイズなどがある場合、認識率向上に⼤きく寄与します。 Watson Speech To Text は、カスタマイズ機能が充実しているのが特徴です。⾔語モデル、⾳響モデル、およびその両⽅をカスタマイズすることにより、さ まざまな業務要件に適応することができます。
  15. © 2022 IBM Corporation 22 ⽂法登録機能(Grammars)の概要 → ⼀定の⽂字列ルール l ⾔語モデル・カスタマイズ機能を拡張し、特定の書式の沿った発話をより正確に⾳声認識するための機能です。

    l ABNF形式(Augmented Backus-Naur Form)かXML形式で表現できる⽂法に対応します。 l ⽂法に沿わない発話は認識結果を返さない、もしくは⾮常に低いConfidence Scoreを返します。これにより、 誤認識が⽣じる可能性を排除します。 【活⽤の例】 • はい/いいえのいずれかを待ち受ける • 回答候補のリストから選択させる • ⽒名の⼊⼒が必須の場合 • ⼝座番号や会員IDなどきまった⽂字列や数字列(通常のn-gramが苦⼿とするもの) カスタマイズ機能
  16. © 2022 IBM Corporation 23 Speech to Text ⾳響モデルカスタマイズ機能の概要 書き起こしを利⽤し

    て⾔語モデルをカス タマイズする 書き起こしの元となった録⾳ ファイルで⾳響モデルをカスタ マイズする 学習済み⾔語モデルによって、 ⾳響モデルカスタマイズの効 果が向上 ⾔語モデルカスタマイズと⾳響モデルカスタマイズ併⽤の流れ ⾳声の録⾳データ(ファイル)を⽤いて、⾳響モデルのカスタマイズが可能。 1.⾳声の録⾳データ(ファイル)のみを⽤いる使い⽅ メリット︓カスタマイズにかかる⼿間が少ない デメリット︓⼀定の精度向上の効果があるものの、限定的(環境雑⾳等) 2.⾳声の録⾳データと書き起こしを⽤いる(⾳響モデルと⾔語モデルのカスタマイズを併⽤)使い⽅ メリット︓精度向上の⼤きな効果が期待できる デメリット︓書き起こしを準備する必要があり、⽐較的に⼿間がかかる + = カスタマイズ機能
  17. © 2022 IBM Corporation 24 • 話者ラベル機能[β](英語、スペイン語、⽇本語) - 複数話者の⾳声が⼊っている⾳源から話者のラベル付けを⾏う機能です。 •

    各単語の認識信頼度を出⼒ - 結果データには、単語毎の認識信頼度も出⼒されます。発⾳や滑⾆の良さなどを判断する材料として使われることもあります。 • 代替候補の出⼒ - 認識結果には第⼀候補以外の代替候補も出⼒させることが可能です。 • 事前登録したキーワード検出 - 業務的に重要なキーワードがある場合、事前登録してそのキーワードのみ抽出することができます。例えばコールセンターのNGワー ドの監視などに使われます。 • スマートフォーマット設定[β](英語、スペイン語、⽇本語) - ⽇付、時刻、⾦額、電話番号などを⾃動的に読みやすい形式に変換して、出⼒します。 • 数値編集機能[β](英語、韓国語、⽇本語) - クレジットカード番号など機微性の⾼い数値データを書き起こしから削除することができます。 カスタマイズ機能以外にも、アプリケーションの作成に有益な機能を追加しています。 認識精度を向上させるためのさまざまな機能(2) カスタマイズ機能
  18. © 2022 IBM Corporation 25 カスタマイズ機能とその⽤途 ⽤途 ⾔語モデル ⾳響モデル ⽂書登録

    単語登録 ⽂法登録 ⾳響登録 特有の⽤語(製品名称など) ◦ ◦ 特有の⾔い回し(コールセンター電話、放送など) ◦ 同⾳異義語(搭乗する/搭乗するなど) ◦ 住所の聞き取り ◯ ◯ ◯ はい いいえの確定 ◯ 会員番号など桁数の決まった⽂字列 ◯ 環境雑⾳ ◦ 発話スタイル(くだけた会話調の発話など) ◦ 特定のアクセント ◦ 特定の録⾳条件により劣化した⾳声(Bluetoothマイク、遠隔マイクなど) ◦ ⽅⾔ ◦ ◦ ◦ • ⾳声認識精度を上げるため、⽤途に合わせて複数のカスタマイズ⽅式を組み合わせることができます。 • カスタマイズ機能は⼀般公開されているため、お客様⾃⾝でお客様の望むタイミングで実施可能です。
  19. © 2022 IBM Corporation 28 (内容) • ⾳声ファイルの準備 • ⾳声ファイルの書き起こし

    • カスタム⾔語モデルの作成/確認/単語追加/コーパス追加/トレーニング • カスタム⾔語モデルの適⽤ カスタマイズ・ツールのご紹介
  20. 30 学習した記事 • 将棋の8⼤タイトル戦の序列や永世称号の仕組みを解説 • https://cabbage-shogi.com/titlerank/ • 藤井聡太と豊島将之が語る「⻯王戦」単独インタビュー • https://www3.nhk.or.jp/news/html/20211209/k10013381211000.html

    • 藤井聡太四冠 永瀬拓⽮王座が語る「とんでもなく負けず嫌い」な実像 • https://www.news-postseven.com/archives/20220117_1719927.html?DETAIL • 藤井聡太が史上最年少「五冠」に王⼿ 渡辺明王将との勝負所はどこだったのか • https://news.yahoo.co.jp/articles/326d85072f59fa015099504c3f2abf929dc22d11 • 「19歳の藤井聡太五冠」のスゴさを棋⼠⽬線で説明すると… • https://news.yahoo.co.jp/articles/d87f8c9fe1a92a868c73aaf1f02228aa0dd60905 • 佐々⽊勇気六段の凄さと伝説︕藤井聡太を⽌めた男 • https://allabout.co.jp/gm/gc/477088/ • 藤井聡太五冠が師匠の杉本昌隆⼋段とタッグ ABEMA師弟戦スピンオフ企画に登場 • https://news.yahoo.co.jp/articles/965b765f022d3bbbae3dff326f67ffd8deddf92e
  21. © 2022 IBM Corporation 32 IBM Watson Speech-to-Textの優位性 IBM Watson

    Speech-to-Text 他社 ⾳声認識精度 ◦ IBM東京基礎研究所の⾳声認識技術により、2017年3⽉ NIST Switchboard電話会話ベンチマークテストで世界最⾼の誤り率 5.5%を記録。さらに、2017年9⽉には⼈間の認識エラー率と同等 の5.1%を達成し、世界No1の認識率を達成した。(最新では 4.3%を達成) この研究成果を反映させたIBM Watson⾳声認識 エンジンは、⽇本における実プロジェクトの⽐較評価においてもほぼ最 ⾼の評価を獲得。 △ 他社は基本的にベンチマーク⾮公開。 カストマイズ機能 (⾔語、⾳響) ◦ 単語のみでなく⽂章(⽂脈の学習)や⽂法でも容易にカスタマイズ が可能、また⾳響のカスタマイズも可能であり、さまざまなユースケー スの要件に適合して⾼精度を実現できる。 他社に⽐較し、少ないデータでカスタマイズが可能 △ ベースの語彙は充実しているが、カスタマイズ機能が⼗分でないものが ほとんど。また、⽂脈の学習や⽂法のカスタマイズに対応し、そのカスタ マイズ⽅法をユーザに解放しているものは⾒受けられない。 稼働環境 (Anywhere) ◦ クラウドやオンプレミス、他社クラウド上など要件に応じてさまざまな環 境で稼働させることが可能。 × 限定的な提供形態。 セキュリティ ◦ クラウド環境では、SSLによる通信保護やクレデンシャルによる認証に よって担保。ユーザーの⼊⼒情報を再利⽤しない指定が可能である ため、⾦融機関や⾏政機関などの厳しいセキュリティ要件を満たす。 △ インプットデータのベンダー再利⽤について、不透明な部分が多い。 実績 ◦ 2014年提供開始以来グローバルでも⽇本でも着実に実績を増加さ せ、現在は⾦融、流通、製造、官公庁などさまざまな分野の業務の中 で活⽤されている。⽇本の⼤⼿メディア調査によると、AIソフト/サービ スにおいて、IBMはNo1の顧客満⾜度を獲得(2019)。 △ ⼀部、⽇本国内でのシェアが⾼いソリューションが存在するが、多⾔ 語に対応し、グローバル全体においてもシェアが⾼いベンダはまだまだ 少ない。 多⾔語対応 ◦ アメリカ英語、イギリス英語、⽇本語、スペイン語、アラビア語、標準中 国語、フランス語、ポルトガル語等。⽇本語は⽇本⼈の開発者も参 加。 △ ⾔語数が多いものの⾔語によっては著しく精度が低いものがある。 機能強化・将来性 ◦ 継続して機能強化を⾏なっており、今後も研究・開発に投資を続けて いく。 △ コンシューマー向け製品も多く、戦略や計画が明確でないものが多い。 • Watson STTは特に ①認識精度の⾼さ ②ユーザに解放された豊富なカスタマイズ機能 ③機能強化・ 将来性において⾼い評価を獲得しています。