その「人間らしさ」、本当に必要ですか？～タスクにあわせた対話評価指標定義のススメ～ / LLM Meetup 20240807

その「⼈間らしさ」、本当に必要ですか？〜タスクにあわせた対話評価指標定義のススメ〜べいえりあ @ 株式会社IVRy

⾃⼰紹介名前：べいえりあ肩書：Principal AI Engineer @ IVRy 専門：自然言語処理（10年くらいやってます）これまでの経歴： -
理論物理博士@ミシガン大学 - データサイエンス修士 @ニューヨーク大学 - Llama作ったチームでインターンやったり - Gemini作ってるチーム（の中の一チーム）でテックリードをやったり

IVRyって何やってるの？ LLMを⽤いた電話の⾃動応答システムなどを作ってます

今回お話ししたいこと

UX的に良さげなAI ≠ ユーザーの役に⽴つAI （本番運⽤サービスを作るのはそんなに⽢くはない）

⼈間らしいAI ≠ ユーザーの役に⽴つAI （本番運⽤サービスを作るのはそんなに⽢くはない）

今回お話ししたいこと今回のLTでは、 - 社内で作った⼈間らしい機能があまり使えなかった失敗談 - その機能が良いか悪いかを判別するためにどうすれば良いか？についてお話しします。

⼈間っぽいAIの機能：会話割り込み - GPT-4oのvoice modeでも実装される（された）機能 - ちなみに、⾒た⽬とは裏腹に割と簡単に実装できるライブデモやります（…と思ったのですが、⽤意できなかったのでGPT-4oのデモ流します）

会話割り込み機能の良かった点 - ⼈間のような対話が実現できる - デモ受けはとても良い - AIの発話に被せるように話すユーザーは結構存在する - 全体的な会話時間が短くなる
- 会話時間の短さはUX上重要

会話割り込み機能の悪かった点 - 「呟き」で認識失敗する - 「AIすご！」みたいな呟きをする⼈は実トラフィックでも結構いる - ノイズが乗った場合にリカバリが困難 - ノイズが永遠にカットインし続ける
- 倍くらい⾳声認識API代がかかる現状だと悪い点が勝ったため結局採⽤せず（ユースケースには依るはず）

実装した機能の良し悪しをどう評価するか →それを測るための評価指標が必要

タスクに応じて評価指標を正しく選択するタスク指向型対話雑談（Cotomoなどはこっち）電話の⾃動応答はタスク指向型対話 → タスク完了率を⽤いる VS タスクの完了が⽬的タスクによってドメインが絞られる短いほど良い
タスク完了率がゴールドスタンダード特に⽬的は無いオープンドメイン⻑いほど良いユーザーの印象が重要

タスク完了率（Task Success Rate）予約したい 8⽉8⽇の11時に3⼈で空きがあります。名前を教えてください明⽇の11時で3⼈です⽥中ですありがとうございます。予約が確定しました
⽇時を教えてください ⭕ 予約したい 8⽉8⽇の11時に3⼈で空きがあります。名前を教えてください明⽇の11時で3⼈です⽥中ですありがとうございます。予約が確定しました⽇時を教えてください予約したいすみません、認識できませんでしたえーと何だっけ？えー… ⽇時を教えてください ❌ 終話 ⭕な対話の割合がタスク完了率

タスク完了率以外の評価指標についてタスク完了率以外にも⾒る指標はある（Deriu, et al. 2019 が詳しい）タスク完了率に上記を加味して、総合的にリリース判断を⾏うのが重要電話転送に繋がるか？「会話の⻑さ」サブシステム評価

まとめ

まとめ - AIと⾔えども「（中途半端な）⼈間らしさ」が正ではない - タスクに合わせて適した評価指標を使うべし - タスク指向型対話についてはタスク完了率が⼀番重要 - 実際にはタスク完了率以外にも様々な指標を組み合わせて⽤いる

その「人間らしさ」、本当に必要ですか？～タスクにあわせた対話評価指標定義のススメ～ / LL...

その「人間らしさ」、本当に必要ですか？～タスクにあわせた対話評価指標定義のススメ～ / LLM Meetup 20240807

Mr. Bay Area

Other Decks in Technology

Featured

Transcript

その「⼈間らしさ」、本当に必要ですか？〜タスクにあわせた対話評価指標定義のススメ〜べいえりあ @ 株式会社IVRy

⾃⼰紹介名前：べいえりあ肩書：Principal AI Engineer @ IVRy 専門：自然言語処理（10年くらいやってます）これまでの経歴： -

IVRyって何やってるの？ LLMを⽤いた電話の⾃動応答システムなどを作ってます

今回お話ししたいこと

UX的に良さげなAI ≠ ユーザーの役に⽴つAI （本番運⽤サービスを作るのはそんなに⽢くはない）

⼈間らしいAI ≠ ユーザーの役に⽴つAI （本番運⽤サービスを作るのはそんなに⽢くはない）

今回お話ししたいこと今回のLTでは、 - 社内で作った⼈間らしい機能があまり使えなかった失敗談 - その機能が良いか悪いかを判別するためにどうすれば良いか？についてお話しします。

会話割り込み機能の良かった点 - ⼈間のような対話が実現できる - デモ受けはとても良い - AIの発話に被せるように話すユーザーは結構存在する - 全体的な会話時間が短くなる

会話割り込み機能の悪かった点 - 「呟き」で認識失敗する - 「AIすご！」みたいな呟きをする⼈は実トラフィックでも結構いる - ノイズが乗った場合にリカバリが困難 - ノイズが永遠にカットインし続ける

実装した機能の良し悪しをどう評価するか →それを測るための評価指標が必要

タスクに応じて評価指標を正しく選択するタスク指向型対話雑談（Cotomoなどはこっち）電話の⾃動応答はタスク指向型対話 → タスク完了率を⽤いる VS タスクの完了が⽬的タスクによってドメインが絞られる短いほど良い

タスク完了率（Task Success Rate）予約したい 8⽉8⽇の11時に3⼈で空きがあります。名前を教えてください明⽇の11時で3⼈です⽥中ですありがとうございます。予約が確定しました

まとめ

その「人間らしさ」、本当に必要ですか？ ～タスクにあわせた対話評価指標定義のススメ～ / LL...

その「人間らしさ」、本当に必要ですか？ ～タスクにあわせた対話評価指標定義のススメ～ / LLM Meetup 20240807

Other Decks in Technology

Featured

Transcript

その「人間らしさ」、本当に必要ですか？～タスクにあわせた対話評価指標定義のススメ～ / LL...

その「人間らしさ」、本当に必要ですか？～タスクにあわせた対話評価指標定義のススメ～ / LLM Meetup 20240807