Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】gSASRec_Reducing Overconfidence in Sequen...

【論文紹介】gSASRec_Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling / recsys2023-gsasrec

2023年10月21日 RecSys2023論文読み会(https://connpass.com/event/298043/) における発表資料です。

以下の論文について概要を紹介しました。
gSASRec: Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling
https://dl.acm.org/doi/10.1145/3604915.3608783

Yuya Matsumura

October 21, 2023
Tweet

More Decks by Yuya Matsumura

Other Decks in Research

Transcript

  1. © 2023 LayerX Inc. 【論文紹介】(Petrov et al., 2023) gSASRec: Reducing

    Overconfidence in Sequential Recommendation Trained with Negative Sampling 2023/10/21 RecSys2023論文読み会 / Yuya Matsumura(@yu-ya4) https://dl.acm.org/doi/10.1145/3604915.3608783
  2. © 2023 LayerX Inc. 2 バクラク事業部 Data&ML部 ML Group マネージャー

    経歴 京都大学大学院情報学研究科修士課程修了。情報検索や情報推薦に関する研究に取り 組む。 2018年ウォンテッドリー株式会社に新卒入社。レコメンドチームの立ち上げに携わる。 その後、機械学習領域のテックリード、プロダクトマネージャー、エンジニアリングマネー ジャーを務める。 2022年9月に株式会社LayerXに入社。機械学習チームにて、法人支出管理SaaSバ クラクのAI-OCR機能をはじめとする機械学習を活用した機能の開発およびマネジメ ントに従事。 その他活動として、ウォンテッドリー株式会社の機械学習領域の技術顧問やスタート アップの技術支援、大学の非常勤講師、書籍の執筆など。 画像を入れてね 自己紹介 松村 優也(Yuya Matsumura) @yu__ya4
  3. © 2023 LayerX Inc. 3 • RQ1 報告されているBERT4RecとSASRecの性能の差におけるNSの影響はいかほどか? ◦ NSの条件を揃えた場合、BERT4RecがSASRecよりも性能が高いとは言えない。

    • RQ2 gBCEを利用することで予測される確率にどのような効果が出るか? ◦ gBCEはOverconfidenceを緩和する。 • RQ3 NSの割合(α)やパラメタtはgSASRecの性能にどのような影響を与えるのか? ◦ tが1に近いほど(βがαに近いほど)、NSの割合(α)が大きいほど性能が向上する傾向 • RQ4 gBCEをSASRecやBERT4Recにて適用すると性能にどのような影響を与えるのか? ◦ NSが小さい際は他の損失関数に比べて性能が改善する。特にSASRecについては顕著である。 NSが大きくなると性能差が小さくなる。 • RQ5 gSASRecは他のモデルと比べてどれほどの性能か? ◦ すべてのデータセットにおいて少ない学習時間で最高もしくは2番目の性能を残した。 ◦ 近年報告された他のモデルと比べても遜色ない性能である。 Summary Sequential RecommendationにおいてNegative Samplingなどにより生じる Overconfidenceの問題を解決するため、gBCE Loss並びにそれを利用したgSASResを提案
  4. © 2023 LayerX Inc. 5 negative samplingなどにより生じるOverconfidence • 巨大なデータセットに対して効率的に学習するためにnegative sampling(NS)がよく利用される。

    • 学習に利用されるデータセット内の正例の割合が大きくなることで、NSを利用して学習したモデルはア イテムが関連する確率を過剰に高く推定する傾向にある。 • この現象をOverconfidenceと呼ぶ。 Overconfidence SASRecにおけるOverconfidence • SASRecは上位25件のアイテムの予測確率がほぼ1。 • SASRecはBCE Loss(sigmoid+BCE)を利用し、各サンプ ルへの予測確率は独立で推定されるため(pointwise)。 • BERT4RecはNSせずSoftmax Loss(softmax + CE)を 利用しており、予測確率の合計値は1となる。 background
  5. © 2023 LayerX Inc. 6 ランキング上位のアイテム間の差が出づらくなる • 少数のランキング上位はほぼ1に近い値となり差がなくなる。上位のアイテムと無数にある下位のアイテ ムを切り分ける方向に学習が進む。 •

    関連するアイテムが上位10件に含まれるが、その中での並び替えがうまくいかない。 Overconfidenceによる問題 BCE Lossにおける発散 • False Positiveなサンプルの推定値が1に近い場合、 が -∞に発散して学習が困難に。 background アイテムのランキングの問題においては並び順が重要であり、最終的な確率の推定値は重要ではない。一方 で、損失関数において確率の推定値を利用していることによる問題が生じる。
  6. © 2023 LayerX Inc. 7 • 通常のBCEと異なるのは、正例に対してσがβ乗されている部分。 ◦ βが0に近い場合、正例に対するシグモイドの出力はすべて1に近づく。 ◦

    βが1に近い場合、BCEとgBCEは一致する。 gSASRec 1つの正例に対してk個の負例を利用する • SASRecは1つの正例に対して1つの負例 Approach 巨大なデータセットを扱うに際してNSは必要であるため、NSしつつもOverconfidenceを緩和させること を目指す。SASRecをベースにしたgSASRecを提案。 Generalised Binary Cross Entropy(gBCE)を損失関数に利用
  7. © 2023 LayerX Inc. 8 損失関数gBCEについて考察 BCEにおけるOverconfidenceの発生 • β=1の際にgBCEとBCEは一致する。 •

    商品数が十分に多い場合αは無視できるほど小さいため、予測確 率がP(i)よりも少し大きくなることが分かる。 Approach 予測確率は以下の分布に収束する。            ,つまりNSの割合。 BCEにおけるOverconfidenceの抑制 • α=βとすれば        となる。 • α(NS割合)を大幅に大きくすることは難しいことが多いため、βをαに近い値に設定すること でOverconfidenceを緩和する。
  8. © 2023 LayerX Inc. 11 Baselines • SASRec • BERT4Rec(SOTA)

    • Popularity(non personalized) • Matrix Factorisation with BPR Loss Models gSASRec(提案手法) • gBCEのパラメタであるNSの割合αおよびβを決定するt(t=0のときβ=1、t=1のときβ=α)はい くつかのパターンで検証 Experiment
  9. © 2023 LayerX Inc. 12 RQ1 報告されているBERT4RecとSASRecの性能の差におけるNSの影響はいかほどか? RQ2 gBCEを利用することで予測される確率にどのような効果が出るか? RQ3

    NSの割合(α)やパラメタtはgSASRecの性能にどのような影響を与えるのか? RQ4 gBCEをSASRecやBERT4Recにて適用すると性能にどのような影響を与えるのか? RQ5 gSASRecは他のモデルと比べてどれほどの性能か? Research Questions Experiment
  10. © 2023 LayerX Inc. 13 NSの条件を揃えた場合、BERT4RecがSASRecよりも性能が高いとは言えない。 • NSを行わなければ性能は大きく向上する。 • NSと損失関数の条件をそろえた場合、

    モデルアーキテ クチャによる性能差はさほど大きくない。 ◦ むしろSASRecがBERT4Recを上回ることの方が多い。 • 元の論文の主張である、BERT4Recのモデルアーキテ クチャがSASRecの性能を上回った要因であるという 考察は誤りに見える。NSをしているかどうかが報告さ れているBERT4RecとSASRecの性能差の主要因で あるように見える。 RQ1 報告されているBERT4RecとSASRecの性能の差における NSの影響はいかほどか? Results
  11. © 2023 LayerX Inc. 14 gBCEはOverconfidenceを緩和する。 真の確率は知り得ないため、代用としてMean Precision@Kを利用。上位K件に含まれるアイテムの予測 確率の平均値と比較(理想は一致)。また、3つのモデルにおいて実験値と理論値を比較。 RQ2

    gBCEを利用することで予測される確率にどのような効果が 出るか? Results (Cormack et al., 1999) • データ量の多いSteamでは実験値と 理論値がほぼ一致。 • 推定確率はSASRecではほぼ1だが、 gSASRecは1よりずっと小さい • t=1(α=β)の場合、平均予測確率と Mean Precisionがほぼ一致
  12. © 2023 LayerX Inc. 19 • RQ1 報告されているBERT4RecとSASRecの性能の差におけるNSの影響はいかほどか? ◦ NSの条件を揃えた場合、BERT4RecがSASRecよりも性能が高いとは言えない。

    • RQ2 gBCEを利用することで予測される確率にどのような効果が出るか? ◦ gBCEはOverconfidenceを緩和する。 • RQ3 NSの割合(α)やパラメタtはgSASRecの性能にどのような影響を与えるのか? ◦ tが1に近いほど(βがαに近いほど)、NSの割合(α)が大きいほど性能が向上する傾向 • RQ4 gBCEをSASRecやBERT4Recにて適用すると性能にどのような影響を与えるのか? ◦ NSが小さい際は他の損失関数に比べて性能が改善する。特にSASRecについては顕著である。 NSが大きくなると性能差が小さくなる。 • RQ5 gSASRecは他のモデルと比べてどれほどの性能か? ◦ すべてのデータセットにおいて少ない学習時間で最高もしくは2番目の性能を残した。 ◦ 近年報告された他のモデルと比べても遜色ない性能である。 Summary Sequential RecommendationにおいてNegative Samplingなどにより生じる Overconfidenceの問題を解決するため、gBCE Loss並びにそれを利用したgSASResを提案
  13. © 2023 LayerX Inc. 20 (Petrov et al., 2023)Aleksandr Petrov

    and Craig Macdonald. 2023. gSASRec: Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling. In Proc. RecSys.116–128. (Sun et al., 2019)Fei Sun, Jun Liu, Jian Wu, Changhua Pei, Xiao Lin, Wenwu Ou, and Peng Jiang. 2019. BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer. In Proc. CIKM. 1441–1450. (Kang et al., 2018)Wang-Cheng Kang and Julian McAuley. 2018. Self-Attentive Sequential Recommendation. In Proc. ICDM. 197–206. (Petrov et al., 2022)Aleksandr Petrov and Craig Macdonald. 2022. A Systematic Review and Replicability Study of BERT4Rec for Sequential Recommendation. In Proc. RecSys.436–447. (Cormack et al., 1999)Gordon V. Cormack, Ondrej Lhotak, and Christopher R. Palmer. 1999. Estimating Precision by Random Sampling. In Proc. SIGIR. 273–274. Ref