実運用で学んだ音声対話システムの評価とテスト

実運用で学んだ   音声対話システムの評価とテスト  

⾃⼰紹介 ▪ 学⽣時代: 京都⼤学･⼤学院⾃然⾔語処理を学ぶ ▪ 2015年: 株式会社リクルートホールディングスアプリ･Webのディレクター、データ分析等 ▪
2019年: エクサウィザーズ NLPエンジニア、チームリード、エンジニアリングマネージャー ▪ 2022年: IVRy Point: 休⽇はボルダリングしかしていません町⽥雄⼀郎 2 Head of AIE

電話⾃動応答サービスIVRy 3 電話AI SaaS IVRy(アイブリー)は、⽉額3,000円からカスタム電話をカンタンに作成できるサービス。全ての電話業務を誰でもすぐにAIを使って効率化できます

業態に合わせた⾃由な応答設定 4 ダイヤルプッシュとAIの対話をハイブリッドで設定し、受けたい電話と⾃動化したい電話を分類。電話業務を効率化できる

⾳声対話システムの本番運⽤で⼤切なこと

1. 落ちないこと 2. 成功すること

落ちないこと   あたりまえだが一番神経を使うポイント   LLMはいつも通り動いている？遅くなっていない？  STT / TTSなど、各種APIも問題ない？     
    「IVRy 社員登壇資料」で検索してみてください https://speakerdeck.com/ivry_presentationmaterials

成功すること   今日の話はこちら    音声対話システムの実運用で  「うまくいく」をどう保証する？   「うまくいっていない」をどう知る？  

音声対話システムの品質担保   一般的に2種類のモデル評価に加えてシステムテストも関連する  オフライン評価   - 静的なテストデータを用いた精度検証  オンライン評価   -
本番環境でのユーザー行動に基づいた評価  システムテスト   - システムが要件どおり動くか   

オフライン評価

開発した⾳声対話システムの性能はどの程度なのか？

基本的なオフライン評価   IVRyではパイプライン中の処理に合わせて評価データを複数作成しています  - ASR(音声認識)用の音声データ  - 主要対話の発話データ   - 住所・名前などの固有名詞
  - 評価指標: Word Error Rate  - NLU用の発話と意図分類データ  - 主要ドメインの発話データ   - サンプルのナレッジベース   - 評価指標: Precision / Recall / F1-Score 

オフライン評価に救われた話   古いLLMモデルから新しいモデルへの移行   ベンチマークスコアではほぼ大きな違いがないことはわかっていた。  このままモデルを差し替えて問題ないか？    ベンチマークスコア (Chatbot arena)

オフライン評価に救われた話   古いLLMモデルから新しいモデルへの移行   ベンチマークスコアではほぼ大きな違いがないことはわかっていた。  このままモデルを差し替えて問題ないか？    ベンチマークスコア (Chatbot arena)
オフライン評価結果

オフライン評価に救われた話   古いLLMモデルから新しいモデルへの移行   ベンチマークスコアではほぼ大きな違いがないことはわかっていた。  このままモデルを差し替えて問題ないか？    → オフライン評価で肯定・否定の確認発話は精度が低下してしまうことが発覚 
  たくさんのモデルが頻繁に各社から出てくるからこそ   オフライン評価で何がどう変わるかを確認することが大事  

オフライン評価に救われた話   古いLLMモデルから新しいモデルへの移行   ベンチマークスコアでは新モデルが良い。このままモデルを差し替えて問題ない？    → オフライン評価で肯定・否定の確認発話は精度が低下してしまうことが発覚  (原因)
与えていたFewShotデータが逆に精度を下げる原因になっていた  たくさんのモデルが頻繁に各社から出てくるからこそ   オフライン評価で何がどう変わるかを確認することが大事  

システムテスト

開発した⾳声対話システムはちゃんと電話で動くのか？

実際に架電してテストする   実際に通話(対話)して動くかどうかの確認が音声対話システムでは大切  しかし、実際にやってみると時間が非常にかかる  あるテストアカウントの年間の発着信数

自動架電テスト 1: シナリオベース   1件あたり30秒 ~ 2分程度かかるとして、30シナリオでも⼈間は30分程度かかる → ⾃動テストにより5分程度まで短縮 (6倍⾼速化)
XXXですお名前は？架電 Agent IVRy mainマージで最新ブランチをテスト環境にデプロイ⾃動架電テスト開始発話シナリオ

自動架電テスト 2: LLMベース  「目的に従って自由に対話するAgent」「対話内容をみて目的が達成されたか評価する Agent」に完全に自由に対話させるテストも検証中  XXXですお名前は？この対話の評価は... 架電 Agent
IVRy 対話評価 Agent 指⽰プロンプト評価プロンプト

オンライン評価

開発した⾳声対話システムでユーザーは⽬的を達成できているか？

オンライン評価   - 対話ログを利用した客観指標によりモニタリングできる - タスク指向対話でよくある評価指標 - タスク達成率 - 予約が成功した
- ユーザーが対話の最後までたどり着いた. etc - 対話ターン回数

タスク完了率ダッシュボード   (会場のみ)

タスク完了率がわかればよい？   次に知りたいのは「タスク完了率を上げるにはどうしたらよいか」   → むしろ「うまくいっていない対話」が重要    うまくいっていないことを把握するには  -
人間による評価  - LLM as a judgeによる評価  - 対話状態ログによる評価  

人間による評価     - 許諾を得た⼀部の通話は各所の協⼒を得て直接評価する - わかることが多い - セールス /
カスタマーサポートとも連携が必要 - ユーザーインタビュー形式になることも - ⼈的コストは⼤分かかる - 幅広いドメインを扱う対話だとスケールしない

LLM as a judgeによる評価     - LLMに代わりをやらせてみる → ⼈間評価との⼀致率はそれほど⾼くはない
-

対話状態ログによる評価     対話システムをWorkﬂowとして組んだ場合  それぞれのモジュールの状態を出力することで内部挙動がわかる   

対話状態ログによる評価       対話システムをWorkﬂowとして組んだ場合  それぞれのモジュールの状態を出力することで内部挙動がわかる？？    会場のみ

対話状態ログによる評価       対話システムをWorkﬂowとして組んだ場合  それぞれのモジュールの状態を出力することで内部挙動がわかる？？    会場のみ対話を深く追っていくには部分的な情報から細部を復元するための複雑なクエリを
Expertが書く必要がある

DFA(決定性オートマトン )による状態定義   XXXです 080... お名前は？電話番号は？対話状態‧遷移イベントを定義し出⼒することで正確性と解釈性を向上させる (モジュールに組み込む or
⽣成させる研究もある) event:1 event:2 event:1 State:1 State:2

DFA(決定性オートマトン )による状態定義   会場のみ

まとめ: 「うまくいく」には準備が必要 - オンライン/オフラインの精度評価に加えて、実運⽤ではシステムテストも重要な品質評価項⽬ - ベンチマークスコアがいいからといって、⾃分が解いているタスクでも精度が上がるとは限らない。オフライン評価⽤データは⼤切。 - 「うまくいく」には「うまくいかない」をどう把握するかが⼤事
- 幅広い運⽤まで考えてログ設計しよう

絶賛採⽤中です！カンパニー採⽤ページもリニューアルしたので是⾮⾒てみてください！

実運用で学んだ音声対話システムの評価とテスト

実運用で学んだ音声対話システムの評価とテスト

Yuichiro Machida

More Decks by Yuichiro Machida

Other Decks in Technology

Featured

Transcript