Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
実運用で学んだ 音声対話システムの評価とテスト
Search
Yuichiro Machida
November 26, 2025
Technology
110
1
Share
実運用で学んだ 音声対話システムの評価とテスト
三田データ vol.1での資料です
Yuichiro Machida
November 26, 2025
More Decks by Yuichiro Machida
See All by Yuichiro Machida
累計2500万着電を支える大規模 電話自動応答サービスのアーキテクチャ / Architecture of a Large-Scale Automated Phone Response Service Supporting 25 Million Cumulative Calls
ymachida
10
11k
LLMでIVRyのAI周りのソフトウェア開発がどう変化したか / How IVRy's software engineering was changed after LLM
ymachida
0
750
Other Decks in Technology
See All in Technology
CyberAgent YJC Connect
shimaf4979
1
170
大学職員のための生成AI最前線 :最前線を、AIガバナンスとして読み直すためのTips
gmoriki
2
3.8k
試作とデモンストレーション / Prototyping and Demonstrations
ks91
PRO
0
190
毎日の作業を Claude Code 経由にしたら、 ノウハウがコードになった
kossykinto
1
1.1k
【技術書典20】OpenFOAM(自宅で深める流体解析)流れと熱移動(2)
kamakiri1225
0
380
AIの揺らぎに“コシ”を与える階層化品質設計
ickx
0
270
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
15
100k
Every Conversation Counts
kawaguti
PRO
0
140
Anthropic「Long-running a gents」をGeminiで再現してみた
tkikuchi
0
790
AI対話分析の夢と、汚いデータの現実 Looker / Dataplex / Dataform で実現する品質ファーストな基盤設計
waiwai2111
0
190
もっとコンテンツをよく構造化して理解したいので、LLM 時代こそ Taxonomy の設計品質に目を向けたい〜!
morinota
0
210
ボトムアップ限界を越える - 20チームを束る "Drive Map" / Beyond Bottom-Up: A 'Drive Map' for 20 Teams
kaonavi
0
150
Featured
See All Featured
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Faster Mobile Websites
deanohume
310
31k
Prompt Engineering for Job Search
mfonobong
0
290
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Agile that works and the tools we love
rasmusluckow
331
21k
We Have a Design System, Now What?
morganepeng
55
8.1k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
140
Crafting Experiences
bethany
1
140
ラッコキーワード サービス紹介資料
rakko
1
3.2M
Leading Effective Engineering Teams in the AI Era
addyosmani
9
1.9k
Rails Girls Zürich Keynote
gr2m
96
14k
Transcript
実運用で学んだ 音声対話システムの評価とテスト
⾃⼰紹介 ▪ 学⽣時代: 京都⼤学・⼤学院 ⾃然⾔語処理を学ぶ ▪ 2015年: 株式会社リクルートホールディングス アプリ・Webのディレクター、データ分析等 ▪
2019年: エクサウィザーズ NLPエンジニア、チームリード、エンジニアリングマネージャー ▪ 2022年: IVRy Point: 休⽇はボルダリングしかしていません 町⽥ 雄⼀郎 2 Head of AIE
電話⾃動応答サービスIVRy 3 電話AI SaaS IVRy(アイブリー)は、 ⽉額3,000円からカスタム電話をカンタンに作成できるサービス。 全ての電話業務を誰でもすぐにAIを使って効率化できます
業態に合わせた⾃由な応答設定 4 ダイヤルプッシュとAIの対話をハイブリッドで設定し、 受けたい電話と⾃動化したい電話を分類。電話業務を効率化できる
⾳声対話システムの本番運⽤で⼤切なこと
1. 落ちないこと 2. 成功すること
落ちないこと あたりまえだが一番神経を使うポイント LLMはいつも通り動いている?遅くなっていない? STT / TTSなど、各種APIも問題ない?
「IVRy 社員登壇資料」で検索してみてください https://speakerdeck.com/ivry_presentationmaterials
落ちないこと あたりまえだが一番神経を使うポイント LLMはいつも通り動いている?遅くなっていない? STT / TTSなど、各種APIも問題ない?
「IVRy 社員登壇資料」で検索してみてください https://speakerdeck.com/ivry_presentationmaterials
成功すること 今日の話はこちら 音声対話システムの実運用で 「うまくいく」をどう保証する? 「うまくいっていない」をどう知る?
音声対話システムの品質担保 一般的に2種類のモデル評価に加えてシステムテストも関連する オフライン評価 - 静的なテストデータを用いた精度検証 オンライン評価 -
本番環境でのユーザー行動に基づいた評価 システムテスト - システムが要件どおり動くか
オフライン評価
開発した⾳声対話システムの 性能はどの程度なのか?
基本的なオフライン評価 IVRyではパイプライン中の処理に合わせて評価データを複数作成しています - ASR(音声認識)用の音声データ - 主要対話の発話データ - 住所・名前などの固有名詞
- 評価指標: Word Error Rate - NLU用の発話と意図分類データ - 主要ドメインの発話データ - サンプルのナレッジベース - 評価指標: Precision / Recall / F1-Score
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? ベンチマークスコア (Chatbot arena)
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? ベンチマークスコア (Chatbot arena)
オフライン評価結果
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? → オフライン評価で肯定・否定の確認発話は精度が低下 してしまうことが発覚
たくさんのモデルが頻繁に各社から出てくるからこそ オフライン評価で何がどう変わるかを確認することが大事
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアでは新モデルが良い。このままモデルを差し替えて問題ない? → オフライン評価で肯定・否定の確認発話は精度が低下 してしまうことが発覚 (原因)
与えていたFewShotデータが逆に精度を下げる原因になっていた たくさんのモデルが頻繁に各社から出てくるからこそ オフライン評価で何がどう変わるかを確認することが大事
システムテスト
開発した⾳声対話システムは ちゃんと電話で動くのか?
実際に架電してテストする 実際に通話(対話)して動くかどうかの確認が音声対話システムでは大切 しかし、実際にやってみると時間が非常にかかる あるテストアカウントの年間の発着信数
自動架電テスト 1: シナリオベース 1件あたり30秒 ~ 2分程度かかるとして、30シナリオでも⼈間は30分程度かかる → ⾃動テストにより5分程度まで短縮 (6倍⾼速化)
XXXです お名前は? 架電 Agent IVRy mainマージで最新ブランチを テスト環境にデプロイ ⾃動架電テスト開始 発話 シナリオ
自動架電テスト 2: LLMベース 「目的に従って自由に対話するAgent」「対話内容をみて目的が達成されたか評価する Agent」に完全に自由に対話させるテストも検証中 XXXです お名前は? この対話の評価は... 架電 Agent
IVRy 対話評価 Agent 指⽰ プロンプト 評価 プロンプト
オンライン評価
開発した⾳声対話システムで ユーザーは⽬的を達成できているか?
オンライン評価 - 対話ログを利用した客観指標によりモニタリングできる - タスク指向対話でよくある評価指標 - タスク達成率 - 予約が成功した
- ユーザーが対話の最後までたどり着いた. etc - 対話ターン回数
タスク完了率ダッシュボード (会場のみ)
タスク完了率がわかればよい? 次に知りたいのは「タスク完了率を上げるにはどうしたらよいか」 → むしろ「うまくいっていない対話」 が重要 うまくいっていないことを把握するには -
人間による評価 - LLM as a judgeによる評価 - 対話状態ログによる評価
人間による評価 - 許諾を得た⼀部の通話は各所の協⼒を得て直接評価する - わかることが多い - セールス /
カスタマーサポート とも連携が必要 - ユーザーインタビュー形式になることも - ⼈的コストは⼤分かかる - 幅広いドメインを扱う対話だとスケールしない
LLM as a judgeによる評価 - LLMに代わりをやらせてみる → ⼈間評価との⼀致率はそれほど⾼くはない
-
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる?? 会場のみ
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる?? 会場のみ 対話を深く追っていくには部分的な情報から細部を復元するため の複雑なクエリを
Expertが書く必要がある
DFA(決定性オートマトン )による状態定義 XXXです 080... お名前は? 電話番号は? 対話状態‧遷移イベントを定義し出⼒することで正確性と解釈性を向上させる (モジュールに組み込む or
⽣成させる研究もある) event:1 event:2 event:1 State:1 State:2
DFA(決定性オートマトン )による状態定義 会場のみ
まとめ: 「うまくいく」には準備が必要 - オンライン/オフラインの精度評価に加えて、実運⽤ではシステムテストも重 要な品質評価項⽬ - ベンチマークスコアがいいからといって、⾃分が解いているタスクでも精度 が上がるとは限らない。オフライン評価⽤データは⼤切。 - 「うまくいく」には「うまくいかない」をどう把握するかが⼤事
- 幅広い運⽤まで考えてログ設計しよう
絶賛採⽤中です! カンパニー採⽤ページもリニューアルしたので是⾮⾒てみてください!