大規模言語モデルを用いたその場での要約に基づくレビュー探索インタフェース

大規模言語モデルを用いたその場での要約に基づくレビュー探索インタフェース藤井真梨乃、河田友香、山本岳洋 (兵庫県立大学) 2024年2月29日第16回データ工学と情報マネジメントに関するフォーラム（DEIM2024）
T3-B-5-04

背景例)ECサイトでドライヤーを購入 2 ★★★★☆ 値段もデザインも満足。ただ冷風が弱いのが少し残念。冷風が弱いのか～他のレビューにはどのようなことが書いてあるかな～

問題点冷風について書いている他のレビューを探す最初から見直すキーワードで検索する 3

問題点最初から見直す • 大量の文章の中から知りたい部分を探すには労力を要する 4 知りたいことが書かれたレビューを絞ること、要約することが必要

問題点キーワードで検索する • 例えば「風量」で調べたとき、「パワー」といった類義語を用いているレビューは出てこない • 言語化しづらい観点もある例)「髪の毛がツヤツヤになりました！」 5 類義語や類似文の検索機能が必要

背景と問題点 6 最初から見直す • 知りたいことが書かれたレビューを探すには分量多 レビューの選択と要約が必要キーワード検索を行う
• 類義語を用いたレビューの表示無 • キーワードとして適切な単語がない場合有 類義語や類似文の検索機能が必要

研究の目的 7 最初から見直す • 知りたいことが書かれたレビューを探すには分量が多い レビューの選択と要約が必要キーワード
検索を行う • 類義語を用いたレビューが表示されない • キーワードとして適切な単語がない場合有 類義語や類似文の検索機能が必要ユーザが気になる観点の他のレビュー文を要約して取得するシステム

関連研究 8 飲食店の口コミから料理に関する文の要約を提示1 [1]市村哲. 口コミから美味しい料理店を手早く探すシステム. 情報処理学会論文誌, Vol. 61, No.
11, pp. 1748–1756, 2020.

関連研究 • 形態素解析を行い、「料理名」と「料理の感想や評価」が述べられている単語を抽出して表示 • 料理情報や評価語の抽出にはデータセットを利用 • 全文を表示するよりも、要約を表示した方が満足度が高い 9

関連研究 • 形態素解析を行い、「料理名」と「料理の感想や評価」が述べられている単語を抽出して表示 • 単語の抽出にはデータセットを利用 • 全文を表示するよりも、要約を表示した方が満足度が高い 10
大規模言語モデルを用いるとデータセットなしで要約が可能になる

提案手法(全体図) 11

システムの概要(ユーザ視点) 初期画面 12

システムの概要(ユーザ視点) 13 ①ユーザが気になった部分を選択

システムの概要(ユーザ視点) ②検索を行うと、関連するレビューの要約を表示 14 要約結果がこの文になったレビューの件数を表示

システムの概要(ユーザ視点) ③要約をクリックするとレビュー本文が表示 15

システムの概要(内部処理) 16

システムの概要(内部処理) 17 あらかじめベクトル化

提案手法(内部処理) 18 検索時にベクトル化あらかじめベクトル化

提案手法(内部処理) 19 検索時にベクトル化あらかじめベクトル化クエリと各レビュー文のコサイン類似度を計算し、0.85以上の
レビューを選択

システムの概要(内部処理) 20 選択したレビューを ChatGPTを用いて要約 商品の種類に縛られない要約が可能

システムの概要(内部処理) #説明文以下で入力された文章を、出力形式に従って 10 文字程度で要約してください。 #入力風量はいいけどcoolの風量もうちょいほしいかな。 #入力例ただ冷風が弱いのが少し残念。
#出力例冷風が弱い #出力形式 10 文字程度の要約結果 21 ただ冷風が弱いのが少し残念。冷風が弱いクエリの元となったレビュー文プロンプト出力風量はいいけどcoolの風量もうちょいほしいかな。要約対象のレビュー文クエリ

評価実験ユーザ実験 • アンケート分析 • クエリ分析検索精度の評価 22

ユーザ実験 23 評価項目(5段階評価) 要約の見やすさ 1 ユーザの興味に対する網羅性 2 観点の網羅性 3 意見の網羅性
4 結果の見やすさ 5 システムの使用難易度 6 全体的な満足度 7 目的:比較手法と比べて、7つの評価項目において差が生じるのかを把握する

ユーザ実験実験参加者 • 兵庫県立大学社会情報科学部、兵庫県立大学大学院情報科学研究科の学生8名(男性4名、女性4名) • 期間:2024年1月9日~2024年2月15日 24 比較手法(キーワード検索) クエリと完全に一致する
レビューを表示レビューを要約せずに表示提案手法クエリと類似するレビューを表示レビューを要約して表示目的:比較手法と比べて、7つの評価項目において差が生じるのかを把握する

ユーザ実験使用データ • 楽天市場で販売されているドライヤー2商品のレビュー • 約6,000円(2023年12月11日時点) • 2023年7月26日時点の最新200件 25

ユーザ実験実験手順 26 検索タスク2 検索タスク1 被験者提案手法/商品2 比較手法/商品1 1, 5
提案手法/商品1 比較手法/商品2 2, 6 比較手法/商品2 提案手法/商品1 3, 7 比較手法/商品1 提案手法/商品2 4, 8 訓練タスク検索タスク1 アンケート検索タスク2 アンケートインタビュー • 訓練タスク:トースターのレビューを検索するタスク • 検索タスク:ドライヤーのレビューを検索するタスク • 制限時間は各10分あなたは母親に誕生日プレゼントとしてドライヤーをプレゼントすることにしました。値段などを考慮して、2つの商品に絞りました。それぞれの商品についてレビューを読み、どのような観点でどのような評価がされているのか調べて下さい。シナリオ

アンケート 27 質問（5段階評価）評価項目レビューに含まれる意見を簡単に確認できたと思う。要約の見やすさ 1 自分の調べたいことを調べることができたと思う。
ユーザの興味に対する網羅性 2 様々な観点で調べることができたと思う。観点の網羅性 3 同じ観点の中で漏れなく意見を調べることができたと思う。意見の網羅性 4 結果の表示方法が分かりやすかったと思う。結果の見やすさ 5 システムの使用は簡単だったと思う。システムの使用難易度 6 システムの機能に満足している。全体的な満足度 7

6以外の項目において提案手法が比較手法を上回っている評価項目（5段階評価）要約の見やすさ 1 ユーザの興味に対する網羅性 2 観点の網羅性 3 意見の網羅性 4
結果の見やすさ 5 システムの使用難易度 6 全体的な満足度 7 結果 29 比較手法提案手法平均 4.00 3.63 3.87 2.87 3.25 4.63 3.38 平均 4.80 4.20 4.40 3.60 4.20* 4.40 4.40

ウェルチのt検定を行い、結果の見やすさについては 5%水準で有意差が認められた評価項目（5段階評価）要約の見やすさ 1 ユーザの興味に対する網羅性 2 観点の網羅性 3 意見の網羅性
4 結果の見やすさ 5 システムの使用難易度 6 全体的な満足度 7 結果 30 比較手法提案手法平均 4.00 3.63 3.87 2.87 3.25 4.63 3.38 平均 4.80 4.20 4.40 3.60 4.20* 4.40 4.40

「結果の見やすさ」の評価された点 • 比較手法は、検索結果が多くなればなるほど結果が見づらくなる • 提案手法は要約を表示することで、意見がまとめて出てくるところが良かった 31

「意見の網羅性」を評価された検索例「風量が強い」の検索例 32 提案手法： 76件比較手法： 3件

キーワード検索での検索結果 • 「風量」：66件 • 「風力」：14件別々に検索する必要がある 33

提案手法での検索結果 • 「風量が強い」の検索結果 • 風量以外の単語で書かれたレビューが表示されている類義語で書かれたレビューも取得することが出来ている 34

提案手法での検索結果 • 「風量が強い」の検索結果反対意見も表示できている 35

「意見の網羅性」を評価されなかった検索例 • 検索結果が0件になる場合もある 36

考察アンケート分析 • 大規模言語モデルを用いた要約でも、検索結果全文を表示するより分かりやすいインタフェースになる • アンケート結果は、実際に検索したクエリの検索結果に影響されている 37

クエリ分析目的:比較手法と提案手法で、検索行動に差が生じるか調べる • クエリ発行数:1回の検索タスク内で検索ボタンが押された回数 • 同じクエリが連続しているものは1回とみなす • クエリセッション:クエリの検索ボタンが押されてから次の検索ボタンが押されるまでの時間
• 検索タスク間で最後に検索されたクエリは使用しない 39

結果クエリ発行数(回) クエリセッション(秒) 40 8 7 6 5 4 3
2 1 参加者 54.38 33.08 63.38 48.25 43.54 21.2 33.29 56.62 比較手法 72.71 76.12 47.45 44.78 105.8 43.42 29.35 79.86 提案手法 8 7 6 5 4 3 2 1 参加者 9 13 9 13 14 26 18 9 比較手法 8 9 12 10 6 13 21 8 提案手法

考察クエリ分析 • クエリの発行数とクエリセッションは、手法による差が認められなかった • セッションの⾧さはシステムの実行時間と検索結果の件数に影響されるのではないか • 検索結果が表示される時間も測定すべきであった
• 結果の件数とセッションには正の相関がみられた 41

検索精度の評価目的:提案手法において、人手でふさわしいとされるレビューがどの程度検索結果に表示されるのかを調べる 43 使用するクエリ • 予備実験と本実験で商品1のレビューを検索するときに用いられたクエリ10件
フレーズ(それ以外) 単語(名詞1つ) 使いやすかった風量音があまり気にならないカラーこげたような匂いプレゼント軽くていい故障冷風にすると風量が弱くなってしまう温度

検索精度の評価 44 • 商品1のレビュー200件を用いて、10個のクエリとの適合性判定を人手(筆者1人)で行い、比較手法および提案手法の結果と比較 • 「使いやすかった」の場合提案手法比較手法
人手レビュー〇〇〇肌ざわりが良くて(シリコンぽい)使いやすかったです。軽くていいけど、風量はそんなにです。熱いので、風邪で乾かすより熱で乾かす感じです。〇〇軽くて使いやすい。最大にしても音があまり気にならないので良いです。

結果 • 単語だと比較手法の値が高く、フレーズだと提案手法の値が高い 45 値再現率適合率単語(名詞1つ)
0.56 0.42 0.94 比較手法 0.27 0.20 0.60 提案手法値再現率適合率フレーズ(それ以外) 0.11 0.06 1.00 比較手法 0.61 0.60 0.72 提案手法

考察検索精度の評価 • 比較手法では、クエリの文字数や情報量が多くなるにつれて完全にクエリと一致するレビューが少なくなるため、フレーズの値が低くなる • 提案手法では、単語と文章だと言葉の単位が異なり、類似度が低下するため、単語の
値が低くなる 46

今後の課題類似レビュー判定の調整 • 文をベクトル化しているため、単語との類似度が低くなってしまった • 閾値の変更や、文に対して単語の除外処理などを行ってからベクトル化を行う必要がある 47

今後の課題プロンプトの改善 • プロンプトの出力がクエリと同様であったり、10文字以内で要約できていない事例も多数存在 • 別の記述方法でプロンプトを作成し、要約 48

今後の課題要約の精度評価 • 検索の精度評価は行ったが、元の文をどの程度要約できているかは評価できていない • 様々なプロンプトの記法で行う必要がある 49

まとめ • 工夫点:ChatGPTを用いて要約→データ少で要約可能 • ユーザ実験の結果、結果の見やすさという評価項目で提案手法の方が優位 • クエリの発行数、クエリセッションは実行時間や検索結果の件数が影響 •
検索精度は、提案手法だと単語の場合に低くなる • ベクトル化を行う手法やプロンプトの調整などが必要 50 ユーザが気になる観点の他のレビュー文を要約して取得するシステム

補足 51

アンケート結果 52

キーワード検索での検索結果 • 「風量」：66件 • 「風力」：14件 53

提案手法比較手法 54

大規模言語モデルを用いた その場での要約に基づく レビュー探索インタフェース

大規模言語モデルを用いた その場での要約に基づく レビュー探索インタフェース

More Decks by 兵庫県立大学 山本研究室

Other Decks in Research

Featured

Transcript

大規模言語モデルを用いたその場での要約に基づくレビュー探索インタフェース

大規模言語モデルを用いたその場での要約に基づくレビュー探索インタフェース

More Decks by 兵庫県立大学山本研究室