Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
実運用で学んだ 音声対話システムの評価とテスト
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Yuichiro Machida
November 26, 2025
Technology
1
95
実運用で学んだ 音声対話システムの評価とテスト
三田データ vol.1での資料です
Yuichiro Machida
November 26, 2025
Tweet
Share
More Decks by Yuichiro Machida
See All by Yuichiro Machida
累計2500万着電を支える大規模 電話自動応答サービスのアーキテクチャ / Architecture of a Large-Scale Automated Phone Response Service Supporting 25 Million Cumulative Calls
ymachida
10
10k
LLMでIVRyのAI周りのソフトウェア開発がどう変化したか / How IVRy's software engineering was changed after LLM
ymachida
0
720
Other Decks in Technology
See All in Technology
親子 or ペアで Mashup for the Future! しゃべって楽しむ 初手AI駆動でものづくり体験
hiroramos4
PRO
0
130
決済サービスを支えるElastic Cloud - Elastic Cloudの導入と推進、決済サービスのObservability
suzukij
2
640
銀行の内製開発にて2つのプロダクトを1つのチームでスクラムしてみてる話
koba1210
1
130
ナレッジワークのご紹介(第88回情報処理学会 )
kworkdev
PRO
0
210
Tebiki Engineering Team Deck
tebiki
0
27k
JAWS DAYS 2026 楽しく学ぼう!ストレージ 入門
yoshiki0705
2
190
オレ達はAWS管理をやりたいんじゃない!開発の生産性を爆アゲしたいんだ!!
wkm2
4
530
楽しく学ぼう!ネットワーク入門
shotashiratori
1
380
ガバメントクラウドにおけるAWSの長期継続割引について
takeda_h
2
200
The_Evolution_of_Bits_AI_SRE.pdf
nulabinc
PRO
0
220
OCI Security サービス 概要
oracle4engineer
PRO
2
13k
AWS DevOps Agent vs SRE俺 / AWS DevOps Agent vs me, the SRE
sms_tech
3
830
Featured
See All Featured
A Tale of Four Properties
chriscoyier
163
24k
The Cult of Friendly URLs
andyhume
79
6.8k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
480
Side Projects
sachag
455
43k
RailsConf 2023
tenderlove
30
1.4k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.1k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.7k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
14k
Optimising Largest Contentful Paint
csswizardry
37
3.6k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.6k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
200
Transcript
実運用で学んだ 音声対話システムの評価とテスト
⾃⼰紹介 ▪ 学⽣時代: 京都⼤学・⼤学院 ⾃然⾔語処理を学ぶ ▪ 2015年: 株式会社リクルートホールディングス アプリ・Webのディレクター、データ分析等 ▪
2019年: エクサウィザーズ NLPエンジニア、チームリード、エンジニアリングマネージャー ▪ 2022年: IVRy Point: 休⽇はボルダリングしかしていません 町⽥ 雄⼀郎 2 Head of AIE
電話⾃動応答サービスIVRy 3 電話AI SaaS IVRy(アイブリー)は、 ⽉額3,000円からカスタム電話をカンタンに作成できるサービス。 全ての電話業務を誰でもすぐにAIを使って効率化できます
業態に合わせた⾃由な応答設定 4 ダイヤルプッシュとAIの対話をハイブリッドで設定し、 受けたい電話と⾃動化したい電話を分類。電話業務を効率化できる
⾳声対話システムの本番運⽤で⼤切なこと
1. 落ちないこと 2. 成功すること
落ちないこと あたりまえだが一番神経を使うポイント LLMはいつも通り動いている?遅くなっていない? STT / TTSなど、各種APIも問題ない?
「IVRy 社員登壇資料」で検索してみてください https://speakerdeck.com/ivry_presentationmaterials
落ちないこと あたりまえだが一番神経を使うポイント LLMはいつも通り動いている?遅くなっていない? STT / TTSなど、各種APIも問題ない?
「IVRy 社員登壇資料」で検索してみてください https://speakerdeck.com/ivry_presentationmaterials
成功すること 今日の話はこちら 音声対話システムの実運用で 「うまくいく」をどう保証する? 「うまくいっていない」をどう知る?
音声対話システムの品質担保 一般的に2種類のモデル評価に加えてシステムテストも関連する オフライン評価 - 静的なテストデータを用いた精度検証 オンライン評価 -
本番環境でのユーザー行動に基づいた評価 システムテスト - システムが要件どおり動くか
オフライン評価
開発した⾳声対話システムの 性能はどの程度なのか?
基本的なオフライン評価 IVRyではパイプライン中の処理に合わせて評価データを複数作成しています - ASR(音声認識)用の音声データ - 主要対話の発話データ - 住所・名前などの固有名詞
- 評価指標: Word Error Rate - NLU用の発話と意図分類データ - 主要ドメインの発話データ - サンプルのナレッジベース - 評価指標: Precision / Recall / F1-Score
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? ベンチマークスコア (Chatbot arena)
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? ベンチマークスコア (Chatbot arena)
オフライン評価結果
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアではほぼ大きな違いがないことはわかっていた。 このままモデルを差し替えて問題ないか? → オフライン評価で肯定・否定の確認発話は精度が低下 してしまうことが発覚
たくさんのモデルが頻繁に各社から出てくるからこそ オフライン評価で何がどう変わるかを確認することが大事
オフライン評価に救われた話 古いLLMモデルから新しいモデルへの移行 ベンチマークスコアでは新モデルが良い。このままモデルを差し替えて問題ない? → オフライン評価で肯定・否定の確認発話は精度が低下 してしまうことが発覚 (原因)
与えていたFewShotデータが逆に精度を下げる原因になっていた たくさんのモデルが頻繁に各社から出てくるからこそ オフライン評価で何がどう変わるかを確認することが大事
システムテスト
開発した⾳声対話システムは ちゃんと電話で動くのか?
実際に架電してテストする 実際に通話(対話)して動くかどうかの確認が音声対話システムでは大切 しかし、実際にやってみると時間が非常にかかる あるテストアカウントの年間の発着信数
自動架電テスト 1: シナリオベース 1件あたり30秒 ~ 2分程度かかるとして、30シナリオでも⼈間は30分程度かかる → ⾃動テストにより5分程度まで短縮 (6倍⾼速化)
XXXです お名前は? 架電 Agent IVRy mainマージで最新ブランチを テスト環境にデプロイ ⾃動架電テスト開始 発話 シナリオ
自動架電テスト 2: LLMベース 「目的に従って自由に対話するAgent」「対話内容をみて目的が達成されたか評価する Agent」に完全に自由に対話させるテストも検証中 XXXです お名前は? この対話の評価は... 架電 Agent
IVRy 対話評価 Agent 指⽰ プロンプト 評価 プロンプト
オンライン評価
開発した⾳声対話システムで ユーザーは⽬的を達成できているか?
オンライン評価 - 対話ログを利用した客観指標によりモニタリングできる - タスク指向対話でよくある評価指標 - タスク達成率 - 予約が成功した
- ユーザーが対話の最後までたどり着いた. etc - 対話ターン回数
タスク完了率ダッシュボード (会場のみ)
タスク完了率がわかればよい? 次に知りたいのは「タスク完了率を上げるにはどうしたらよいか」 → むしろ「うまくいっていない対話」 が重要 うまくいっていないことを把握するには -
人間による評価 - LLM as a judgeによる評価 - 対話状態ログによる評価
人間による評価 - 許諾を得た⼀部の通話は各所の協⼒を得て直接評価する - わかることが多い - セールス /
カスタマーサポート とも連携が必要 - ユーザーインタビュー形式になることも - ⼈的コストは⼤分かかる - 幅広いドメインを扱う対話だとスケールしない
LLM as a judgeによる評価 - LLMに代わりをやらせてみる → ⼈間評価との⼀致率はそれほど⾼くはない
-
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる?? 会場のみ
対話状態ログによる評価 対話システムをWorkflowとして組んだ場合 それぞれのモジュールの状態を出力することで内部挙動がわかる?? 会場のみ 対話を深く追っていくには部分的な情報から細部を復元するため の複雑なクエリを
Expertが書く必要がある
DFA(決定性オートマトン )による状態定義 XXXです 080... お名前は? 電話番号は? 対話状態‧遷移イベントを定義し出⼒することで正確性と解釈性を向上させる (モジュールに組み込む or
⽣成させる研究もある) event:1 event:2 event:1 State:1 State:2
DFA(決定性オートマトン )による状態定義 会場のみ
まとめ: 「うまくいく」には準備が必要 - オンライン/オフラインの精度評価に加えて、実運⽤ではシステムテストも重 要な品質評価項⽬ - ベンチマークスコアがいいからといって、⾃分が解いているタスクでも精度 が上がるとは限らない。オフライン評価⽤データは⼤切。 - 「うまくいく」には「うまくいかない」をどう把握するかが⼤事
- 幅広い運⽤まで考えてログ設計しよう
絶賛採⽤中です! カンパニー採⽤ページもリニューアルしたので是⾮⾒てみてください!