Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
その「人間らしさ」、本当に必要ですか? ~タスクにあわせた対話評価指標定義のススメ~ / LL...
Search
Mr. Bay Area
August 06, 2024
Technology
2
1.1k
その「人間らしさ」、本当に必要ですか? ~タスクにあわせた対話評価指標定義のススメ~ / LLM Meetup 20240807
Mr. Bay Area
August 06, 2024
Tweet
Share
Other Decks in Technology
See All in Technology
「AIエージェントで変わる開発プロセス―レビューボトルネックからの脱却」
lycorptech_jp
PRO
0
180
脳が溶けた話 / Melted Brain
keisuke69
1
1.1k
タスク管理も1on1も、もう「管理」じゃない - KiroとBedrock AgentCoreで変わった“判断の仕事”
yusukeshimizu
0
140
非同期・イベント駆動処理の分散トレーシングの繋げ方
ichikawaken
1
210
開発チームとQAエンジニアの新しい協業モデル -年末調整開発チームで実践する【QAリード施策】-
kaomi_wombat
0
260
出版記念イベントin大阪「書籍紹介&私がよく使うMCPサーバー3選と社内で安全に活用する方法」
kintotechdev
0
110
Change Calendarで今はOK?を仕組みにする
tommy0124
1
130
Zephyr(RTOS)でOpenPLCを実装してみた
iotengineer22
0
150
BFCacheを活用して無限スクロールのUX を改善した話
apple_yagi
0
130
20260326_AIDD事例紹介_ULSC.pdf
findy_eventslides
0
170
SaaSの操作主体は人間からAIへ - 経理AIエージェントが目指す深い自動化
nishihira
0
120
GitHub Copilot CLI で Azure Portal to Bicep
tsubakimoto_s
0
290
Featured
See All Featured
How GitHub (no longer) Works
holman
316
150k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
180
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
160
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
310
Building Flexible Design Systems
yeseniaperezcruz
330
40k
The browser strikes back
jonoalderson
0
850
Believing is Seeing
oripsolob
1
99
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.4k
The untapped power of vector embeddings
frankvandijk
2
1.6k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
150
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
500
The Cost Of JavaScript in 2023
addyosmani
55
9.8k
Transcript
その「⼈間らしさ」、本当に必要ですか? 〜タスクにあわせた対話評価指標定義のススメ〜 べいえりあ @ 株式会社IVRy
⾃⼰紹介 名前:べいえりあ 肩書:Principal AI Engineer @ IVRy 専門:自然言語処理(10年くらいやってます) これまでの経歴: -
理論物理博士@ミシガン大学 - データサイエンス修士 @ニューヨーク大学 - Llama作ったチームでインターンやったり - Gemini作ってるチーム(の中の一チーム)でテックリードをやったり
IVRyって何やってるの? LLMを⽤いた電話の⾃動応答システムなどを作ってます
今回お話ししたいこと
UX的に良さげなAI ≠ ユーザーの役に⽴つAI (本番運⽤サービスを作るのはそんなに⽢くはない)
⼈間らしいAI ≠ ユーザーの役に⽴つAI (本番運⽤サービスを作るのはそんなに⽢くはない)
今回お話ししたいこと 今回のLTでは、 - 社内で作った⼈間らしい機能があまり使えなかった失敗談 - その機能が良いか悪いかを判別するためにどうすれば良いか? についてお話しします。
⼈間っぽいAIの機能:会話割り込み - GPT-4oのvoice modeでも実装される(された)機能 - ちなみに、⾒た⽬とは裏腹に割と簡単に実装できる ライブデモやります (…と思ったのですが、⽤意できなかったのでGPT-4oのデモ流します)
会話割り込み機能の良かった点 - ⼈間のような対話が実現できる - デモ受けはとても良い - AIの発話に被せるように話すユーザーは結 構存在する - 全体的な会話時間が短くなる
- 会話時間の短さはUX上重要
会話割り込み機能の悪かった点 - 「呟き」で認識失敗する - 「AIすご!」みたいな呟きをする⼈は 実トラフィックでも結構いる - ノイズが乗った場合にリカバリが困難 - ノイズが永遠にカットインし続ける
- 倍くらい⾳声認識API代がかかる 現状だと悪い点が勝ったため結局採⽤せず (ユースケースには依るはず)
実装した機能の良し悪しをどう評価するか →それを測るための評価指標が必要
タスクに応じて評価指標を正しく選択する タスク指向型対話 雑談(Cotomoなどはこっち) 電話の⾃動応答はタスク指向型対話 → タスク完了率を⽤いる VS タスクの完了が⽬的 タスクによってドメインが絞られる 短いほど良い
タスク完了率がゴールドスタンダード 特に⽬的は無い オープンドメイン ⻑いほど良い ユーザーの印象が重要
タスク完了率(Task Success Rate) 予約したい 8⽉8⽇の11時に3⼈で空きがありま す。名前を教えてください 明⽇の11時で3⼈です ⽥中です ありがとうございます。 予約が確定しました
⽇時を教えてください ⭕ 予約したい 8⽉8⽇の11時に3⼈で空きがありま す。名前を教えてください 明⽇の11時で3⼈です ⽥中です ありがとうございます。 予約が確定しました ⽇時を教えてください 予約したい すみません、認識できませんでした えーと何だっけ? えー… ⽇時を教えてください ❌ 終話 ⭕な対話の割合がタスク完了率
タスク完了率以外の評価指標について タスク完了率以外にも⾒る指標はある(Deriu, et al. 2019 が詳しい) タスク完了率に上記を加味して、総合的にリリース判断を⾏うのが重要 電話転送に繋がるか? 「会話の⻑さ」 サブシステム評価
まとめ
まとめ - AIと⾔えども「(中途半端な)⼈間らしさ」が正ではない - タスクに合わせて適した評価指標を使うべし - タスク指向型対話についてはタスク完了率が⼀番重要 - 実際にはタスク完了率以外にも様々な指標を組み合わせて⽤いる