$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
実運用で学んだ 音声対話システムの評価とテスト
Search
Yuichiro Machida
November 26, 2025
Technology
0
69
実運用で学んだ 音声対話システムの評価とテスト
三田データ vol.1での資料です
Yuichiro Machida
November 26, 2025
Tweet
Share
More Decks by Yuichiro Machida
See All by Yuichiro Machida
累計2500万着電を支える大規模 電話自動応答サービスのアーキテクチャ / Architecture of a Large-Scale Automated Phone Response Service Supporting 25 Million Cumulative Calls
ymachida
9
10k
LLMでIVRyのAI周りのソフトウェア開発がどう変化したか / How IVRy's software engineering was changed after LLM
ymachida
0
700
Other Decks in Technology
See All in Technology
Kiro を用いたペアプロのススメ
taikis
4
1.4k
AI with TiDD
shiraji
1
120
20251222_サンフランシスコサバイバル術
ponponmikankan
2
130
Microsoft Agent 365 についてゆっくりじっくり理解する!
skmkzyk
0
440
「もしもデータ基盤開発で『強くてニューゲーム』ができたなら今の僕はどんなデータ基盤を作っただろう」
aeonpeople
0
140
AI時代の新規LLMプロダクト開発: Findy Insightsを3ヶ月で立ち上げた舞台裏と振り返り
dakuon
0
380
AI-DLCを現場にインストールしてみた:プロトタイプ開発で分かったこと・やめたこと
recruitengineers
PRO
2
220
障害対応訓練、その前に
coconala_engineer
0
150
プロンプトやエージェントを自動的に作る方法
shibuiwilliam
15
16k
ExpoのインダストリーブースでみたAWSが見せる製造業の未来
hamadakoji
0
180
AWSの新機能をフル活用した「re:Inventエージェント」開発秘話
minorun365
2
320
IAMユーザーゼロの運用は果たして可能なのか
yama3133
2
520
Featured
See All Featured
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
For a Future-Friendly Web
brad_frost
180
10k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
89
Designing for Timeless Needs
cassininazir
0
87
The Cost Of JavaScript in 2023
addyosmani
55
9.4k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
0
90
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
2
61
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
Visualization
eitanlees
150
16k
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5k
The Curious Case for Waylosing
cassininazir
0
190
Transcript
実運用で学んだ 音声対話システムの評価とテスト
⾃⼰紹介 ▪ 学⽣時代: 京都⼤学・⼤学院 ⾃然⾔語処理を学ぶ ▪ 2015年: 株式会社リクルートホールディングス アプリ・Webのディレクター、データ分析等 ▪
2019年: エクサウィザーズ NLPエンジニア、チームリード、エンジニアリングマネージャー ▪ 2022年: IVRy Point: 休⽇はボルダリングしかしていません 町⽥ 雄⼀郎 2 Head of AIE
電話⾃動応答サービスIVRy 3 電話AI SaaS IVRy(アイブリー)は、 ⽉額3,000円からカスタム電話をカンタンに作成できるサービス。 全ての電話業務を誰でもすぐにAIを使って効率化できます
業態に合わせた⾃由な応答設定 4 ダイヤルプッシュとAIの対話をハイブリッドで設定し、 受けたい電話と⾃動化したい電話を分類。電話業務を効率化できる
⾳声対話システムの本番運⽤で⼤切なこと
1. 落ちないこと 2. 成功すること
落ちないこと あたりまえだが一番神経を使うポイント LLMはいつも通り動いている?遅くなっていない? STT / TTSなど、各種APIも問題ない?
「IVRy 社員登壇資料」で検索してみてください https://speakerdeck.com/ivry_presentationmaterials
落ちないこと あたりまえだが一番神経を使うポイント LLMはいつも通り動いている?遅くなっていない? STT / TTSなど、各種APIも問題ない?
「IVRy 社員登壇資料」で検索してみてください https://speakerdeck.com/ivry_presentationmaterials
成功すること 今日の話はこちら 音声対話システムの実運用で 「うまくいく」をどう保証する? 「うまくいっていない」をどう知る?
音声対話システムの品質担保 一般的に2種類のモデル評価に加えてシステムテストも関連する オフライン評価 - 静的なテストデータを用いた精度検証 オンライン評価 -
本番環境でのユーザー行動に基づいた評価 システムテスト - システムが要件どおり動くか
オフライン評価
開発した⾳声対話システムの 性能はどの程度なのか?
基本的なオフライン評価 IVRyではパイプライン中の処理に合わせて評価データを複数作成しています - ASR(音声認識)用の音声データ - 主要対話の発話データ - 住所・名前などの固有名詞
- 評価指標: Word Error Rate - NLU用の発話と意図分類データ - 主要ドメインの発話データ - サンプルのナレッジベース - 評価指標: Precision / Recall / F1-Score
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? ベンチマークスコア (Chatbot arena)
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? ベンチマークスコア (Chatbot arena)
オフライン評価結果
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? → オフライン評価で肯定・否定の確認発話は精度が低下 してしまうことが発覚
たくさんのモデルが頻繁に各社から出てくるからこそ オフライン評価で何がどう変わるかを確認することが大事
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアでは新モデルが良い。このままモデルを差し替えて問題ない? → オフライン評価で肯定・否定の確認発話は精度が低下 してしまうことが発覚 (原因)
与えていたFewShotデータが逆に精度を下げる原因になっていた たくさんのモデルが頻繁に各社から出てくるからこそ オフライン評価で何がどう変わるかを確認することが大事
システムテスト
開発した⾳声対話システムは ちゃんと電話で動くのか?
実際に架電してテストする 実際に通話(対話)して動くかどうかの確認が音声対話システムでは大切 しかし、実際にやってみると時間が非常にかかる あるテストアカウントの年間の発着信数
自動架電テスト 1: シナリオベース 1件あたり30秒 ~ 2分程度かかるとして、30シナリオでも⼈間は30分程度かかる → ⾃動テストにより5分程度まで短縮 (6倍⾼速化)
XXXです お名前は? 架電 Agent IVRy mainマージで最新ブランチを テスト環境にデプロイ ⾃動架電テスト開始 発話 シナリオ
自動架電テスト 2: LLMベース 「目的に従って自由に対話するAgent」「対話内容をみて目的が達成されたか評価する Agent」に完全に自由に対話させるテストも検証中 XXXです お名前は? この対話の評価は... 架電 Agent
IVRy 対話評価 Agent 指⽰ プロンプト 評価 プロンプト
オンライン評価
開発した⾳声対話システムで ユーザーは⽬的を達成できているか?
オンライン評価 - 対話ログを利用した客観指標によりモニタリングできる - タスク指向対話でよくある評価指標 - タスク達成率 - 予約が成功した
- ユーザーが対話の最後までたどり着いた. etc - 対話ターン回数
タスク完了率ダッシュボード (会場のみ)
タスク完了率がわかればよい? 次に知りたいのは「タスク完了率を上げるにはどうしたらよいか」 → むしろ「うまくいっていない対話」 が重要 うまくいっていないことを把握するには -
人間による評価 - LLM as a judgeによる評価 - 対話状態ログによる評価
人間による評価 - 許諾を得た⼀部の通話は各所の協⼒を得て直接評価する - わかることが多い - セールス /
カスタマーサポート とも連携が必要 - ユーザーインタビュー形式になることも - ⼈的コストは⼤分かかる - 幅広いドメインを扱う対話だとスケールしない
LLM as a judgeによる評価 - LLMに代わりをやらせてみる → ⼈間評価との⼀致率はそれほど⾼くはない
-
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる?? 会場のみ
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる?? 会場のみ 対話を深く追っていくには部分的な情報から細部を復元するため の複雑なクエリを
Expertが書く必要がある
DFA(決定性オートマトン )による状態定義 XXXです 080... お名前は? 電話番号は? 対話状態‧遷移イベントを定義し出⼒することで正確性と解釈性を向上させる (モジュールに組み込む or
⽣成させる研究もある) event:1 event:2 event:1 State:1 State:2
DFA(決定性オートマトン )による状態定義 会場のみ
まとめ: 「うまくいく」には準備が必要 - オンライン/オフラインの精度評価に加えて、実運⽤ではシステムテストも重 要な品質評価項⽬ - ベンチマークスコアがいいからといって、⾃分が解いているタスクでも精度 が上がるとは限らない。オフライン評価⽤データは⼤切。 - 「うまくいく」には「うまくいかない」をどう把握するかが⼤事
- 幅広い運⽤まで考えてログ設計しよう
絶賛採⽤中です! カンパニー採⽤ページもリニューアルしたので是⾮⾒てみてください!