Upgrade to Pro — share decks privately, control downloads, hide ads and more …

精度を無視しない推薦多様化の評価指標

kuri8ive
November 08, 2024

 精度を無視しない推薦多様化の評価指標

IR Reading 2024秋での発表資料です。
https://sigirtokyo.github.io/post/2024-11-09-irreading_2024fall/

紹介した論文はOn Evaluation Metrics for Diversity-enhanced Recommendations (CIKM 2024)です。
https://doi.org/10.1145/3627673.3679629

kuri8ive

November 08, 2024
Tweet

More Decks by kuri8ive

Other Decks in Research

Transcript

  1. IR Reading 2024秋 2024年11月08日 精度を無視しない推薦多様化の評価指標 On Evaluation Metrics for Diversity-enhanced

    Recommendations (CIKM 2024) LINEヤフー株式会社 栗本 真太郎(@kuri8ive) ※ 断りのない限り、図表は紹介論文からの引用です
  2. 2/25 1. カテゴリベース ⚫ カテゴリカバレッジ(CC):推薦アイテム群が全カテゴリをどのくらいカバーしているか 𝐶𝐶 ℛ𝑢 = ڂ𝑖 ∈

    ℛ𝑢 𝒞𝑖 𝒞𝐼 ℛ𝑢 はユーザー𝑢に対する推薦アイテム群、𝒞𝐼 はアイテム𝑖のカテゴリ、𝐼はアイテム集合 2. 距離ベース ⚫ リスト内平均/最短距離(ILAD/ILMD):推薦アイテム間がどれくらい離れているか ILD ℛ𝑢 = 1 ℛ𝑢 ෍ 𝑖 ∈ ℛ𝑢 𝑑(𝑖, ℛ𝑢 ∖ i) ℛ𝑢 ∖ 𝑖はアイテム𝑖を除いた推薦アイテム群、𝑑(𝑖, ℛ𝑢 ∖ i)は𝑖とℛ𝑢 ∖ 𝑖の距離 𝑑(𝑖, ℛ𝑢 ∖ i)𝑎𝑣𝑒𝑟𝑎𝑔𝑒 = 1 ℛ𝑢 − 1 ෍ 𝑖 ∈ ℛ𝑢∖i 𝑑(𝑖, 𝑗) 𝑑(𝑖, ℛ𝑢 ∖ i)𝑚𝑖𝑛 = min 𝑖 ∈ ℛ𝑢∖i 𝑑(𝑖, 𝑗) ※ 全体レベルではエントロピーやジニ係数等あるが、本研究では個々のレベルの指標に焦点 背景|多様性指標は(個々のレベルでは)主に2種類[40] [40] Fairness and diversity in recommender systems: a survey (TIST'23)
  3. 4/25 先の3つの多様性指標、CC, ILAD, ILMDによりTop-10推薦の評価をしてみる ⚫データセット ⚫ Taobao (EC)[43, 44] ⚫手法

    ⚫ Maximal Marginal Relevance (MMR)[5] ⚫ Determinantal Point Process (DPP)[6] ⚫ DGRec[34] ⚫評価対象 ⚫ 推薦結果全体 ⚫ 効果的なアイテム群(:= 推薦結果とテストデータの積集合) 予備調査|効果的な推薦かを区別できていない例(1/2) [43] Joint optimization of tree-based index and deep model for recommender systems (NeurIPS'19) [44] Learning tree-based deep model for recommender systems (KDD'18) [5] The use of MMR, diversity-based reranking for reordering documents and producing summaries (SIGIR'98) [6] Fast greedy map inference for determinantal point process to improve recommendation diversity (NeurIPS'18) [34] DGRec: Graph Neural Network for Recommendation with Diversified Embedding Generation (WSDM'23)
  4. 7/25 実験設定|より多くのデータセット、手法による評価(1/2) ⚫データセット ⚫ Taobao (EC) ⚫ Amazon Beauty (Beauty)

    ⚫ Million Song Dataset (MSD) ⚫手法 ⚫ LightGCN[12] ⚫ MMR、DPP、DGRec ⚫ Popularity(人気度順)、Random ⚫評価設定 ⚫ @10、@20、@100 [12] Lightgcn: simplifying and powering graph convolution network for recommendation (SIGIR'20)
  5. 8/25 実験設定|より多くのデータセット、手法による評価(2/2) ⚫評価指標 ⚫ Recall、NDCG ⚫ CC、ILAD/ILMD ⚫評価対象 ⚫ 推薦結果全体

    ⚫ 効果的なアイテム群(:=推薦結果全体とテストデータの積集合) アイテム間の類似度は内積で測る、したがって𝑑 𝑖, 𝑗 = (1 − 𝒆𝑖 𝒆𝐽 𝑇) , 𝒆はアイテム𝑖の正規化された埋め込みで、埋め込みはLightGCNにより学習
  6. 10/25 実験結果(RQ1)|既存の多様性指標の課題の確認(2/2) ユーザーをRecallに基づいて2分割 ⚫ Recall = 0:ネガティブグループ ⚫ Recall >

    0:ポジティブグループ ⚫ポジティブグループは 多様化手法においては少数派 たとえばDGRecではLightGCNと比べて ポジティブグループは6割強も減少 ⚫精度向上と多様性向上は それぞれ違うグループからもたらされる 精度は少数派のポジティブから、 多様性は多数派のネガティブから
  7. 17/25 提案指標1:効果的でない推薦の寄与を減らすDCC 既存のカテゴリベース指標CCは効果的な推薦かにかかわらず均等な重みを割り当てている 効果的でない推薦の寄与を減らすため、割引係数αを組み込む 𝐶 ℛ𝑢 = ራ 𝑖 ∈

    ℛ𝑢 𝒞𝑖 , 𝐷𝐶𝐶 ℛ𝑢 = 1 𝒞𝐼 ( 𝒞ℛ𝑢∩𝒢𝑢 + 𝛼 𝒞ℛ𝑢∖𝒢𝑢 ) 𝒞𝐼はデータセット内の全カテゴリ集合、𝒢𝑢はユーザー𝑢のテストアイテム集合
  8. 18/25 提案指標2:頻度も考慮したDCCであるFDCC GT 𝒢𝑢 に高頻度で現れるカテゴリにより大きな重みを付与 𝐹𝐷𝐶𝐶 ℛ𝑢 = 1 𝒞𝐼

    ෍ 𝑐∈𝒞ℛ𝑢∩𝒢𝑢 𝑐𝑘 + 𝛼 𝒞ℛ𝑢∖𝒢𝑢 , 𝑐𝑘 = ൝ 1 𝑓𝒢𝑢 𝑘 < 𝑏, log𝑏 𝑓𝒢𝑢 (𝑘) 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 𝑓𝒢𝑢 𝑘 は𝒢𝑢におけるカテゴリ𝑘の出現頻度
  9. 20/25 指標に大きな影響を与える割引係数の調整(1/2) αやβを0、つまり効果的でない推薦を無視するもの不適切 ∵推薦システムにおいて、負のラベルがある≒ユーザーの好みでない ⚫αの最適な範囲探索 ⚫ 全ユーザーのtop-k推薦結果ℛを、効果的でない推薦の数に基づいてk+1個のグループに分類 ⚫ n+1個目のグループはℛ𝑛(0 ≤

    𝑛 ≤ 𝑘)(n個の効果的なアイテムとk-n個のそうでないアイテムで構成) ⚫ ℛ𝑛に似たリストが生成される確率を𝑃(ℛ𝑛)、これを使ってn個の効果的なアイテムを含むリストの割合を近似 ⚫ 𝐷𝐶𝐶 ℛ = σ𝑛=0 𝑘 𝐷𝐶𝐶 ℛ𝑛 ∙ 𝑃 ℛ𝑛 , 𝐷𝐶𝐶 ℛ𝑛 0 ≤ 𝑛 ≤ 𝑘) = 𝑛 + 𝛼(𝑘 − 𝑛) ⚫ 𝑝をtop-k推薦の精度と定義し、ℛ𝑛を推薦する確率をk個のうちn個が効果的な場合として 二項分布によりモデル化 P ℛ𝑛 0 ≤ 𝑛 ≤ 𝑘) = 𝑘 𝑛 𝑝𝑛(1 − 𝑝)(𝑘−𝑛) ⚫ 効果的なアイテムの寄与を多数派とするため、任意の𝑖, 𝑗 ∈ [0, 𝑘]に対して、次の不等式が満たされるべき if 𝑖, 𝑗, 𝑡ℎ𝑒𝑛 𝐷𝐶𝐶 ℛ𝑖 ∙ 𝑃 ℛ𝑖 > 𝐷𝐶𝐶 ℛ𝑗 ∙ 𝑃 ℛ𝑗
  10. 21/25 指標に大きな影響を与える割引係数の調整(2/2) ⚫αの最適な範囲探索(続き) ⚫ 効果的でないアイテムの不確実性を考慮して、全推薦アイテムに先の不等式を満たすことを要求しない 代わりに累積確率σ𝑛=0 𝑁 𝑃 ℛ𝑛 ≥

    𝜏が満たされる最小値𝑁を𝑁𝜏 𝛼と定義し、少なくとも1であるようにする ⚫ 区間[0, 𝑁𝜏 𝛼]のすべての𝑖, 𝑗に対して先の不等式が満たされる必要がある ⚫ 本研究では𝜏は0.99に設定(すなわち、99%以上の推薦結果がこの要件を満たす) ⚫ 𝛼 ∈ [0, 1]の最大値を理想的な割引係数として定義 βも概ね同様の手順で範囲探索を行う (唯一の違いは、DILADはDCCやFDCCと違ってペアで計算する指標のため、𝑁𝜏 𝛼 ≥ 2)