Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[最強DB講義]推薦システム | 評価編

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

[最強DB講義]推薦システム | 評価編

最強DB講義 #39-2 推薦システム | 評価編での講義資料です。
https://dblectures.connpass.com/event/391064/

Avatar for RecSysLab

RecSysLab PRO

April 22, 2026

More Decks by RecSysLab

Other Decks in Technology

Transcript

  1. 本講義(評価編)で学ぶ主なトピック 推薦システムの評価方法 ❏ オフライン評価 ❏ ユーザ評価 ❏ オンライン評価 推薦システムの評価指標 ❏

    正確性に関する評価指標 ❏ 嗜好予測の正確性 ❏ 上位 K 推薦の正確性 ❏ 発見性に関する評価指標 2
  2. データセット(dataset) user_id item_id rating 1 1 5 1 2 4

    : : : 1 8 2 2 1 3 2 2 3 : : : 2 9 5 3 1 4 3 3 3 : : : 3 8 3 user_id name age sex 1 Alice 20 f 2 Bruno 22 m 3 Chiara 21 f item_id name category 1 ショートケーキ スポンジケーキ 2 シフォンケーキ スポンジケーキ 3 ロールケーキ スポンジケーキ 4 スフレチーズケーキ チーズケーキ 5 ベイクドチーズケーキ チーズケーキ 6 レアチーズケーキ チーズケーキ 7 ガトーショコラ チョコレートケーキ 8 フォンダンショコラ チョコレートケーキ 9 ブラウニー チョコレートケーキ 10 ザッハトルテ チョコレートケーキ 評価履歴 ユーザ アイテム 正解データとして、 の組の集合により提供されている ユーザ u がアイテム i に対して 評価値 を与えたという事実 6
  3. 評価履歴の分割 (1) 訓練データ(training data) 学習モデルの構築に用いられる (2) 検証データ(validation data) 最適なパラメタを見つけるための パラメタ検証に用いられる

    (3) テストデータ(test data) 最終的な評価に用いられる 評価履歴 訓練データ テストデータ 検証データ 50% 25% 25% 7
  4. 交差検証法(cross-validation) 評価履歴を k 組に分割し、この k 組のうちの1組の評価履歴をテストデー タとして、残りの k - 1

    組の評価履歴を訓練データとし、これを k パター ン用意する 評価履歴 テスト テスト テスト テスト テスト 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 9
  5. タスク遂行前の質問例 | ResQUE(短縮版) [Pu+2011] 12 1 Please choose your gender:

    Male / Female 2 Please select your age group: -20 / 21-30 / 31-40 / 41-50 / 51-60 / 61- 3 Please fill in your nationality: 4 Which country do you reside in? 5 How long have you stayed in your residence country? 6 Please fill in your profession: 7 Please select your education level: Primary School / High School / College / Graduate School 8 How would you rate yourself as a computer user? No experience / Beginner / Average / Advanced 9 How frequently have you used the Internet? Never / Very infrequently (just a few times overall) / Infrequently (a few times a month) / Moderately (1-3 times a week) / Regularly (daily/almost daily) 10 Please list the recommender sites that you have used and frequency of usages. 11 Do you tend to trust a person/thing, even though you have little knowledge of it? Very probably not / Probably not / Probably / Very Probably / Definitely 12 Please fill in your email address if you want to be eligible for the prizes and receive information about the outcome of the survey. [Pu+2011] P. Pu et al.: A user-centric evaluation framework for recommender systems, RecSys2011, 157–164, 2011.
  6. タスク遂行後の質問例 | ResQUE(短縮版) [Pu+2011] 13 1: まったくそうは思わない / 2: そうは思わない

    / 3: どちらともいえない / 4: そう思う / 5: 強くそう思う 5段階リッカート尺度 [Pu+2011] P. Pu et al.: A user-centric evaluation framework for recommender systems, RecSys2011, 157–164, 2011. 1 正確性 推薦されたアイテムは私の興味に合っている。 2 新規性 このシステムは新しいアイテムを発見するのに役立った。 3 多様性 推薦されたアイテムは多様である。 4 インタフェース妥当性 システムのインタフェースのレイアウトとラベルは適切である。 5 説明性 このシステムは、なぜそのアイテムが私に推薦されたのかを説明してくれる。 6 情報充足性 推薦されたアイテムに関する情報は、購入/ダウンロードの判断をするのに十分である。 7 インタラクション妥当性 このシステムに自分の好き/嫌いを伝えるのは簡単であった。 8 知覚操作性 このシステムにすぐに慣れることができた。 9 制御性 自分の嗜好プロファイルを編集する際、自分自身で制御できていると感じる。 10 透明性 なぜそのアイテムが推薦されたのか理解できた。 11 知覚有用性 このシステムは理想のアイテムを見つけるのに役立った。 12 総合満足度 全体として、このシステムに満足している。 13 信頼性 このシステムは信頼できる。 14 利用意向 このシステムを再び利用したい。 15 購入意向 機会があれば、推薦されたアイテムを購入したい。
  7. 1 関連性 推薦されたアイテムは私の興味に合っている。 2 新規性 推薦されたアイテムは私にとって新しい。 3 購入多様性 推薦されたアイテムは私がこれまでに購入してきた商品と種類が異なる。 4

    推薦多様性 推薦されたアイテムはこれまでのシステムによる推薦と類似する。 5 意外性 推薦されたアイテムは私にとって意外である。 6 セレンディピティ 推薦されたアイテムは私にとって嬉しい驚きである。 7 適時性 推薦されたアイテムは私にとって非常にタイムリーである。 8 ユーザ満足度 このシステムに満足している。 9 購入意向 機会があれば、推薦されたアイテムを視聴したい。 タスク遂行後の質問例 | ResQUE(改良版)[Chen+2019] 14 [Chen+2019] L. Chen et al.: How serendipity improves user satisfaction with recommendations? A large-scale user evaluation, WWW2019, 240–250, 2019. 1: まったくそうは思わない / 2: そうは思わない / 3: どちらともいえない / 4: そう思う / 5: 強くそう思う 5段階リッカート尺度
  8. 実験参加者間計画 vs. 実験参加者内計画 実験参加者間計画 (between-subjects design) 実験参加者内計画 (within-subjects design) 多く必要

    実験参加者数 少なく済む 小さい 1人当りの負荷 大きい 影響なし 順序効果 影響あり 15
  9. インターリービング(interleaving) 18 A1 B1 A2 B2 A3 B3 A1 A2

    A3 B1 B2 B3 二つの推薦システムA、Bによる推薦リストを 一つの推薦リストに統合してユーザに提示 [Chapelle2012+] 推薦システムA 推薦システムB [Chapelle+2012]O. Chapelle et al.: Large-scale validation and analysis of interleaved search evaluation. ACM TOIS, 1–41, 2012.
  10. オフライン評価 ユーザ評価 オンライン評価 実施コスト 実ユーザの 反応評価 ユーザの分布 その他 ➢ さまざまな条件で

    の比較 ➢ 定性的な評価 ➢ 長期的な評価 ➢ リスクが大きい ➢ 十分なユーザ数が 必要 評価方法の比較 19
  11. テストデータ 訓練データ 評価値行列 訓練データとテストデータ 1:ショート ケーキ 2:シフォン ケーキ 3:ロール ケーキ

    4:スフレ チーズケーキ 5:ベイクド チーズケーキ 6:レアチー ズケーキ 7:ガトー ショコラ 8:フォンダン ショコラ 9:ブラウニ ー 10:ザッハ トルテ 1: Alice 5 4 3 ? 5 4 2 2 ? ? 2: Bruno 3 3 3 3 2 ? 4 ? 5 ? 3: Chiara 4 ? 3 5 4 3 ? 3 ? ? 正解データ(ground truth) 25 1:ショート ケーキ 2:シフォン ケーキ 3:ロール ケーキ 4:スフレ チーズケーキ 5:ベイクド チーズケーキ 6:レアチー ズケーキ 7:ガトー ショコラ 8:フォンダン ショコラ 9:ブラウニ ー 10:ザッハ トルテ 1: Alice 5 3 5 4 2 2: Bruno 3 3 3 3 4 3: Chiara 4 3 5 4 3 1:ショート ケーキ 2:シフォン ケーキ 3:ロール ケーキ 4:スフレ チーズケーキ 5:ベイクド チーズケーキ 6:レアチー ズケーキ 7:ガトー ショコラ 8:フォンダン ショコラ 9:ブラウニ ー 10:ザッハ トルテ 1: Alice 4 2 2: Bruno 2 5 3: Chiara 3
  12. ユーザ u アイテム i 1:Alice 2:シフォンケーキ 4 2 2 2

    4 1:Alice 7:ガトーショコラ 2 2 0 0 0 2:Bruno 9:ブラウニー 5 3 2 2 4 2:Bruno 5:ベイクドチーズケーキ 2 2 0 0 0 3:Chiara 8:フォンダンショコラ 3 3 0 0 0 嗜好予測の正確性 テストデータ 平均絶対誤差 (mean absolute error; MAE) 平均二乗誤差 (mean square error; MSE) 二乗平均平方根誤差 (root mean square error; RMSE) 26
  13. 推薦された(陽性) 推薦されなかった(陰性) 好き 真陽性(true-positive; TP) 偽陰性(false-negative; FN) 嫌い 偽陽性(false-positive; FP)

    真陰性(true-negative; TN) 推薦された 推薦されなかった 好き 好きなアイテムが推薦された数(TP) 好きなアイテムが推薦されなかった数(FN) 嫌い 嫌いなアイテムが推薦された数(FP) 嫌いなアイテムが推薦されなかった数(TN) 混同行列(confusion matrix) 混同行列 ユーザが好きなアイテムが推薦された/されなかった数、ユーザが嫌いな アイテムが推薦された/されなかった数を2行2列の表にまとめたもの 30
  14. すべての嫌いなアイテムのうち上位 K 件の 推薦リストに含まれる嫌いなアイテムの割合 推薦された 推薦されなかった 好き 好きなアイテムが推薦された数(TP) 好きなアイテムが推薦されなかった数(FN) 嫌い

    嫌いなアイテムが推薦された数(FP) 嫌いなアイテムが推薦されなかった数(TN) 偽陽性率(false-positive rate; FPR) 真陽性率(true-positive rate; TPR) すべての好きなアイテムのうち上位 K 件の 推薦リストに含まれる好きなアイテムの割合 真陽性率と偽陽性率 混同行列 32
  15. 真陽性率と偽陽性率 | 例 33 順位 K アイテム i 好き/嫌い TP@K

    FN@K FP@K TN@K TPR@K FPR@K 1 1:ショートケーキ 好き 1 3 0 3 0.250 0.000 2 6:レアチーズケーキ 好き 2 2 0 3 0.500 0.000 3 3:ロールケーキ 嫌い 2 2 1 2 0.500 0.333 4 5:ベイクドチーズケーキ 好き 3 1 1 2 0.750 0.333 5 7:ガトーショコラ 嫌い 3 1 2 1 0.750 0.667 6 2:シフォンケーキ 好き 4 0 2 1 1.000 0.667 7 8:フォンダンショコラ 嫌い 4 0 3 0 1.000 1.000
  16. 適合率と再現率 | 例 37 順位 K アイテム i 好き/嫌い TP@K

    FN@K FP@K TN@K prec.@K recall@K F1 @K 1 1:ショートケーキ 好き 1 3 0 3 1.000 0.250 0.400 2 6:レアチーズケーキ 好き 2 2 0 3 1.000 0.500 0.667 3 3:ロールケーキ 嫌い 2 2 1 2 0.667 0.500 0.571 4 5:ベイクドチーズケーキ 好き 3 1 1 2 0.750 0.750 0.750 5 7:ガトーショコラ 嫌い 3 1 2 1 0.600 0.750 0.667 6 2:シフォンケーキ 好き 4 0 2 1 0.667 1.000 0.800 7 8:フォンダンショコラ 嫌い 4 0 3 0 0.571 1.000 0.727
  17. 平均逆順位(mean reciprocal rank; MRR) 推薦リストを1位から順にみていったとき、好きなアイテムがいかに早く 現れるかを示す指標 順位 K 好き嫌い 1

    好き 2 好き 3 嫌い 4 好き 5 嫌い 順位 K 好き嫌い 1 嫌い 2 好き 3 嫌い 4 嫌い 5 好き 順位 K 好き嫌い 1 嫌い 2 嫌い 3 好き 4 好き 5 嫌い Alice Bruno Chiara 40
  18. 平均適合率(average precision; AP) 推薦リストの長さを K に固定したとき、第 K 位までの適合率の平均をと った評価指標 ユーザ

    u 向けの推薦リストの 平均適合率 順位 K 1 2 3 4 5 好き/嫌い 好き 好き 嫌い 好き 嫌い Alice向けの推薦リスト 41
  19. MAP(mean average precision) すべてのユーザの平均適合率の平均 順位 K 好き嫌い 1 好き 2

    好き 3 嫌い 4 好き 5 嫌い 順位 K 好き嫌い 1 嫌い 2 好き 3 嫌い 4 嫌い 5 好き 順位 K 好き嫌い 1 嫌い 2 嫌い 3 好き 4 好き 5 嫌い Alice Bruno Chiara 42
  20. 順位 K 1 2 3 4 5 5 4 3

    5 2 DCG(discounted cumulative gain) Alice 推薦リスト上位に高評価値のアイテムが含まれているほど高く評価 ユーザ u 向けの推薦リストに 含まれるアイテム集合 推薦リストにおけるアイテム i の順位 43
  21. アイテム i 1 2 3 5 6 7 8 5

    4 3 5 4 2 2 順位 K 1 2 3 4 5 5 5 4 4 3 IDCG(ideal discounted cumulative gain) ユーザ u のテストデータを理想的な順位に並べ替えた推薦リストのDCG Aliceのテストデータ Aliceにとっての 理想的な推薦リスト 44
  22. 予測被覆率(prediction coverage) 48 ※簡略化のため、少なくとも2名以上のユーザ による評価値が与えられているアイテムに対し て評価値予測が可能とする 評価値予測が可能なアイテム集合 1:ショート ケーキ 2:シフォン

    ケーキ 3:ロール ケーキ 4:スフレ チーズケーキ 5:ベイクド チーズケーキ 6:レアチー ズケーキ 7:ガトー ショコラ 8:フォンダン ショコラ 9:ブラウニ ー 10:ザッハ トルテ 1: Alice 5 3 5 4 2 2: Bruno 3 3 3 3 4 3: Chiara 4 3 5 4 3
  23. カタログ被覆率(catalog coverage) 49 順位 K アイテム i 1 1:ショートケーキ 2

    6:レアチーズケーキ 3 3:ロールケーキ 4 5:ベイクドチーズケーキ 5 7:ガトーショコラ 順位 K アイテム i 1 2:シフォンケーキ 2 9:ブラウニー 3 4:スフレチーズケーキ 4 1:ショートケーキ 5 7:ガトーショコラ 順位 K アイテム i 1 8:フォンダンショコラ 2 6:レアチーズケーキ 3 4:スフレチーズケーキ 4 5:ベイクドチーズケーキ 5 3:ロールケーキ t = 1 Alice t = 2 Bruno t = 3 Chiara
  24. 多様性(diversity) 推薦リストがいかに多様なアイテムを含むかを測る評価指標 アイテム i カテゴリ 5:ベイクドチーズケーキ チーズケーキ 7:ガトーショコラ チョコレートケーキ 8:フォンダンショコラ

    チョコレートケーキ 9:ブラウニー チョコレートケーキ 10:ザッハトルテ チョコレートケーキ アイテム i カテゴリ 1:ショートケーキ スポンジケーキ 4:スフレチーズケーキ チーズケーキ 5:ベイクドチーズケーキ チーズケーキ 7:ガトーショコラ チョコレートケーキ 8:フォンダンショコラ チョコレートケーキ 推薦リストA 推薦リストB 多様性↓ 多様性↑ 50
  25. リスト内類似度(intra-list similarity) 51 アイテム i カテゴリ 5:ベイクドチーズケーキ チーズケーキ 7:ガトーショコラ チョコレートケーキ

    8:フォンダンショコラ チョコレートケーキ 9:ブラウニー チョコレートケーキ 10:ザッハトルテ チョコレートケーキ 5 7 8 9 10 アイテム i カテゴリ 1:ショートケーキ スポンジケーキ 4:スフレチーズケーキ チーズケーキ 5:ベイクドチーズケーキ チーズケーキ 7:ガトーショコラ チョコレートケーキ 8:フォンダンショコラ チョコレートケーキ 1 4 5 7 8 推薦リストA 推薦リストB ※簡略化のため同一カテゴリを類似度1と定義
  26. 1:ショート ケーキ 2:シフォン ケーキ 3:ロール ケーキ 4:スフレ チーズケーキ 5:ベイクド チーズケーキ

    6:レアチー ズケーキ 7:ガトー ショコラ 8:フォンダン ショコラ 9:ブラウニ ー 10:ザッハ トルテ 1: Alice 5 3 5 4 2 2: Bruno 3 3 3 3 4 3: Chiara 4 3 5 4 3 ユーザ u アイテム i 1:Alice 2:シフォンケーキ 1 1/3 2/3 1:Alice 7:ガトーショコラ 1 1/3 2/3 2:Bruno 9:ブラウニー 0 0/3 3/3 2:Bruno 5:ベイクドチーズケーキ 2 2/3 1/3 3:Chiara 8:フォンダンショコラ 1 1/3 2/3 人気度に基づく新規性(popularity-based novelty) 53
  27. ユーザ u アイテム i カテゴリ 1:Alice 2:シフォンケーキ スポンジケーキ 5 3

    3/5 1:Alice 7:ガトーショコラ チョコレートケーキ 5 4 4/5 2:Bruno 9:ブラウニー チョコレートケーキ 5 4 4/5 2:Bruno 5:ベイクドチーズケーキ チーズケーキ 5 4 4/5 3:Chiara 8:フォンダンショコラ チョコレートケーキ 5 5 5/5 距離に基づく新規性(distance-based novelty) 54 ※簡略化のため同一カテゴリを距離0、それ以外を距離1と定義 1:ショート ケーキ 2:シフォン ケーキ 3:ロール ケーキ 4:スフレ チーズケーキ 5:ベイクド チーズケーキ 6:レアチー ズケーキ 7:ガトー ショコラ 8:フォンダン ショコラ 9:ブラウニ ー 10:ザッハ トルテ 1: Alice 5 3 5 4 2 2: Bruno 3 3 3 3 4 3: Chiara 4 3 5 4 3
  28. 順位 K アイテム i 1 1:ショートケーキ 5 2 6:レアチーズケーキ 4

    3 3:ロールケーキ 3 4 5:ベイクドチーズケーキ 5 5 7:ガトーショコラ 2 意外性(unexpectedness)| 例 56 Aliceへの推薦リスト 順位 K アイテム i 予測評価値 1 4:スフレチーズケーキ 4 2 5:ベイクドチーズケーキ 4 3 7:ガトーショコラ 4 4 1:ショートケーキ 3.5 5 2:シフォンケーキ 3 プリミティブシステムによる推薦リスト
  29. Aliceへの推薦リスト 順位 K アイテム i 1 1:ショートケーキ 5 〇 2

    6:レアチーズケーキ 4 〇 〇 3 3:ロールケーキ 3 〇 4 5:ベイクドチーズケーキ 5 〇 5 7:ガトーショコラ 2 セレンディピティ(serendipity)| 例 58 ※セレンディピティの評価に 関しては、現在も議論あり
  30. 本講義(評価編)で学ぶ主なトピック 推薦システムの評価方法 ❏ オフライン評価 ❏ ユーザ評価 ❏ オンライン評価 推薦システムの評価指標 ❏

    正確性に関する評価指標 ❏ 嗜好予測の正確性 ❏ 上位 K 推薦の正確性 ❏ 発見性に関する評価指標 60
  31. さらなる学習に向けて 推薦システムの評価 ❏ 奥健太:『基礎から学ぶ推薦システム ~情報技術で嗜好を予測する~』,コロナ社,2022. ❏ 風間正弘,飯塚洸二郎,松村優也:『推薦システム実践入門 ―仕事で使える導入ガイド』,オライリー・ジャパン, 2022. ❏

    Charu C. Aggarwal: “Recommender Systems: The Textbook”, Springer, 2016. ❏ B.P. Knijnenburg et al.: Evaluating Recommender Systems with User Experiments, Recommender Systems Handbook, 2nd ed., Springer. 309–352, 2015. ❏ 土方嘉徳:推薦システムのオフライン評価手法,人工知能学会誌,29,6,658–689,2014. 推薦システムにおけるセレンディピティに関する最近の議論 ❏ Kotkov, D. et al.: The Dark Matter of Serendipity in Recommender Systems, 108–118, 2024. ❏ Kotkov, D. et al.: Rethinking Serendipity in Recommender Systems, 383–387, 2023. ❏ Smets, A. et al.: Serendipity in Recommender Systems Beyond the Algorithm: A Feature Repository and Experimental Design, 46–66, 2022. 61