【論文紹介】gSASRec_Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling / recsys2023-gsasrec

© 2023 LayerX Inc. 【論文紹介】(Petrov et al., 2023) gSASRec: Reducing
Overconfidence in Sequential Recommendation Trained with Negative Sampling 2023/10/21 RecSys2023論文読み会 / Yuya Matsumura(@yu-ya4) https://dl.acm.org/doi/10.1145/3604915.3608783

© 2023 LayerX Inc. 2 バクラク事業部 Data&ML部 ML Group マネージャー
経歴京都大学大学院情報学研究科修士課程修了。情報検索や情報推薦に関する研究に取り組む。 2018年ウォンテッドリー株式会社に新卒入社。レコメンドチームの立ち上げに携わる。その後、機械学習領域のテックリード、プロダクトマネージャー、エンジニアリングマネージャーを務める。 2022年9月に株式会社LayerXに入社。機械学習チームにて、法人支出管理SaaSバクラクのAI-OCR機能をはじめとする機械学習を活用した機能の開発およびマネジメントに従事。その他活動として、ウォンテッドリー株式会社の機械学習領域の技術顧問やスタートアップの技術支援、大学の非常勤講師、書籍の執筆など。画像を入れてね自己紹介松村優也（Yuya Matsumura） @yu__ya4

© 2023 LayerX Inc. 3 • RQ1 報告されているBERT4RecとSASRecの性能の差におけるNSの影響はいかほどか？ ◦ NSの条件を揃えた場合、BERT4RecがSASRecよりも性能が高いとは言えない。
• RQ2 gBCEを利用することで予測される確率にどのような効果が出るか？ ◦ gBCEはOverconfidenceを緩和する。 • RQ3 NSの割合(α)やパラメタtはgSASRecの性能にどのような影響を与えるのか？ ◦ tが1に近いほど(βがαに近いほど)、NSの割合(α)が大きいほど性能が向上する傾向 • RQ4 gBCEをSASRecやBERT4Recにて適用すると性能にどのような影響を与えるのか？ ◦ NSが小さい際は他の損失関数に比べて性能が改善する。特にSASRecについては顕著である。 NSが大きくなると性能差が小さくなる。 • RQ5 gSASRecは他のモデルと比べてどれほどの性能か？ ◦ すべてのデータセットにおいて少ない学習時間で最高もしくは2番目の性能を残した。 ◦ 近年報告された他のモデルと比べても遜色ない性能である。 Summary Sequential RecommendationにおいてNegative Samplingなどにより生じる Overconfidenceの問題を解決するため、gBCE Loss並びにそれを利用したgSASResを提案

© 2023 LayerX Inc. 4 与えられたuser-itemのインタラクション系列の次のアイテムを予測するタスク Sequential Recommendation BERT4RecやSASRecなどTransformerベースのモデルが高い性能を示す RecSys2022におけるReproducibility
paperによると、BERT4RecがSOTAとのこと。 background A E B H ？ (Sun et al., 2019) (Kang et al., 2018) (Petrov et al., 2022)

© 2023 LayerX Inc. 5 negative samplingなどにより生じるOverconfidence • 巨大なデータセットに対して効率的に学習するためにnegative sampling(NS)がよく利用される。
• 学習に利用されるデータセット内の正例の割合が大きくなることで、NSを利用して学習したモデルはアイテムが関連する確率を過剰に高く推定する傾向にある。 • この現象をOverconfidenceと呼ぶ。 Overconfidence SASRecにおけるOverconfidence • SASRecは上位25件のアイテムの予測確率がほぼ1。 • SASRecはBCE Loss(sigmoid+BCE)を利用し、各サンプルへの予測確率は独立で推定されるため(pointwise)。 • BERT4RecはNSせずSoftmax Loss(softmax + CE)を利用しており、予測確率の合計値は1となる。 background

© 2023 LayerX Inc. 6 ランキング上位のアイテム間の差が出づらくなる • 少数のランキング上位はほぼ1に近い値となり差がなくなる。上位のアイテムと無数にある下位のアイテムを切り分ける方向に学習が進む。 •
関連するアイテムが上位10件に含まれるが、その中での並び替えがうまくいかない。 Overconfidenceによる問題 BCE Lossにおける発散 • False Positiveなサンプルの推定値が1に近い場合、が -∞に発散して学習が困難に。 background アイテムのランキングの問題においては並び順が重要であり、最終的な確率の推定値は重要ではない。一方で、損失関数において確率の推定値を利用していることによる問題が生じる。

© 2023 LayerX Inc. 7 • 通常のBCEと異なるのは、正例に対してσがβ乗されている部分。 ◦ βが0に近い場合、正例に対するシグモイドの出力はすべて1に近づく。 ◦
βが1に近い場合、BCEとgBCEは一致する。 gSASRec 1つの正例に対してk個の負例を利用する • SASRecは1つの正例に対して1つの負例 Approach 巨大なデータセットを扱うに際してNSは必要であるため、NSしつつもOverconfidenceを緩和させることを目指す。SASRecをベースにしたgSASRecを提案。 Generalised Binary Cross Entropy(gBCE)を損失関数に利用

© 2023 LayerX Inc. 8 損失関数gBCEについて考察 BCEにおけるOverconfidenceの発生 • β=1の際にgBCEとBCEは一致する。 •
商品数が十分に多い場合αは無視できるほど小さいため、予測確率がP(i)よりも少し大きくなることが分かる。 Approach 予測確率は以下の分布に収束する。　　　　　　　　　　　　,つまりNSの割合。 BCEにおけるOverconfidenceの抑制 • α=βとすれば　　　　　　　　となる。 • α(NS割合)を大幅に大きくすることは難しいことが多いため、βをαに近い値に設定することでOverconfidenceを緩和する。

© 2023 LayerX Inc. 10 上位のアイテムの順番を評価するための評価指標を設定 • Recall@1, Recall@10 •
NDCG@10 Metrics Experiment

© 2023 LayerX Inc. 11 Baselines • SASRec • BERT4Rec(SOTA)
• Popularity(non personalized) • Matrix Factorisation with BPR Loss Models gSASRec（提案手法） • gBCEのパラメタであるNSの割合αおよびβを決定するt（t=0のときβ=1、t=1のときβ=α）はいくつかのパターンで検証 Experiment

© 2023 LayerX Inc. 12 RQ1 報告されているBERT4RecとSASRecの性能の差におけるNSの影響はいかほどか？ RQ2 gBCEを利用することで予測される確率にどのような効果が出るか？ RQ3
NSの割合(α)やパラメタtはgSASRecの性能にどのような影響を与えるのか？ RQ4 gBCEをSASRecやBERT4Recにて適用すると性能にどのような影響を与えるのか？ RQ5 gSASRecは他のモデルと比べてどれほどの性能か？ Research Questions Experiment

© 2023 LayerX Inc. 13 NSの条件を揃えた場合、BERT4RecがSASRecよりも性能が高いとは言えない。 • NSを行わなければ性能は大きく向上する。 • NSと損失関数の条件をそろえた場合、
モデルアーキテクチャによる性能差はさほど大きくない。 ◦ むしろSASRecがBERT4Recを上回ることの方が多い。 • 元の論文の主張である、BERT4RecのモデルアーキテクチャがSASRecの性能を上回った要因であるという考察は誤りに見える。NSをしているかどうかが報告されているBERT4RecとSASRecの性能差の主要因であるように見える。 RQ1 報告されているBERT4RecとSASRecの性能の差における NSの影響はいかほどか？ Results

© 2023 LayerX Inc. 14 gBCEはOverconfidenceを緩和する。真の確率は知り得ないため、代用としてMean Precision@Kを利用。上位K件に含まれるアイテムの予測確率の平均値と比較（理想は一致）。また、3つのモデルにおいて実験値と理論値を比較。 RQ2
gBCEを利用することで予測される確率にどのような効果が出るか？ Results (Cormack et al., 1999) • データ量の多いSteamでは実験値と理論値がほぼ一致。 • 推定確率はSASRecではほぼ1だが、 gSASRecは1よりずっと小さい • t=1(α=β)の場合、平均予測確率と Mean Precisionがほぼ一致

© 2023 LayerX Inc. 16 NSが小さい際は他の損失関数に比べて性能が改善する。特にSASRecについては顕著である。NSが大きくなると性能差が小さくなる。 RQ4 gBCEをSASRecやBERT4Recにて適用すると性能にどのような影響を与えるのか？
Results

© 2023 LayerX Inc. 17 すべてのデータセットにおいて少ない学習時間で最高もしくは2番目の性能を残した。 • MovieLensにおけるRecall@1の改善が顕著 • gSASRecはBERT4Recで扱うのが難しい巨大なデータセットにおいても高い性能を示す。
• gSASRecはBERT4Recよりも学習に必要な時間が小さい。 RQ5 gSASRecは他のモデルと比べてどれほどの性能か？ Results

© 2023 LayerX Inc. 19 • RQ1 報告されているBERT4RecとSASRecの性能の差におけるNSの影響はいかほどか？ ◦ NSの条件を揃えた場合、BERT4RecがSASRecよりも性能が高いとは言えない。
• RQ2 gBCEを利用することで予測される確率にどのような効果が出るか？ ◦ gBCEはOverconfidenceを緩和する。 • RQ3 NSの割合(α)やパラメタtはgSASRecの性能にどのような影響を与えるのか？ ◦ tが1に近いほど(βがαに近いほど)、NSの割合(α)が大きいほど性能が向上する傾向 • RQ4 gBCEをSASRecやBERT4Recにて適用すると性能にどのような影響を与えるのか？ ◦ NSが小さい際は他の損失関数に比べて性能が改善する。特にSASRecについては顕著である。 NSが大きくなると性能差が小さくなる。 • RQ5 gSASRecは他のモデルと比べてどれほどの性能か？ ◦ すべてのデータセットにおいて少ない学習時間で最高もしくは2番目の性能を残した。 ◦ 近年報告された他のモデルと比べても遜色ない性能である。 Summary Sequential RecommendationにおいてNegative Samplingなどにより生じる Overconfidenceの問題を解決するため、gBCE Loss並びにそれを利用したgSASResを提案

© 2023 LayerX Inc. 20 (Petrov et al., 2023)Aleksandr Petrov
and Craig Macdonald. 2023. gSASRec: Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling. In Proc. RecSys.116–128. (Sun et al., 2019)Fei Sun, Jun Liu, Jian Wu, Changhua Pei, Xiao Lin, Wenwu Ou, and Peng Jiang. 2019. BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer. In Proc. CIKM. 1441–1450. (Kang et al., 2018)Wang-Cheng Kang and Julian McAuley. 2018. Self-Attentive Sequential Recommendation. In Proc. ICDM. 197–206. (Petrov et al., 2022)Aleksandr Petrov and Craig Macdonald. 2022. A Systematic Review and Replicability Study of BERT4Rec for Sequential Recommendation. In Proc. RecSys.436–447. (Cormack et al., 1999)Gordon V. Cormack, Ondrej Lhotak, and Christopher R. Palmer. 1999. Estimating Precision by Random Sampling. In Proc. SIGIR. 273–274. Ref

【論文紹介】gSASRec_Reducing Overconfidence in Sequen...

【論文紹介】gSASRec_Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling / recsys2023-gsasrec

Yuya Matsumura

More Decks by Yuya Matsumura

Other Decks in Research

Featured

Transcript

© 2023 LayerX Inc. 【論文紹介】(Petrov et al., 2023) gSASRec: Reducing

© 2023 LayerX Inc. 2 バクラク事業部 Data&ML部 ML Group マネージャー

© 2023 LayerX Inc. 3 • RQ1 報告されているBERT4RecとSASRecの性能の差におけるNSの影響はいかほどか？ ◦ NSの条件を揃えた場合、BERT4RecがSASRecよりも性能が高いとは言えない。

© 2023 LayerX Inc. 4 与えられたuser-itemのインタラクション系列の次のアイテムを予測するタスク Sequential Recommendation BERT4RecやSASRecなどTransformerベースのモデルが高い性能を示す RecSys2022におけるReproducibility

© 2023 LayerX Inc. 5 negative samplingなどにより生じるOverconfidence • 巨大なデータセットに対して効率的に学習するためにnegative sampling(NS)がよく利用される。

© 2023 LayerX Inc. 6 ランキング上位のアイテム間の差が出づらくなる • 少数のランキング上位はほぼ1に近い値となり差がなくなる。上位のアイテムと無数にある下位のアイテムを切り分ける方向に学習が進む。 •

© 2023 LayerX Inc. 7 • 通常のBCEと異なるのは、正例に対してσがβ乗されている部分。 ◦ βが0に近い場合、正例に対するシグモイドの出力はすべて1に近づく。 ◦

© 2023 LayerX Inc. 8 損失関数gBCEについて考察 BCEにおけるOverconfidenceの発生 • β=1の際にgBCEとBCEは一致する。 •

© 2023 LayerX Inc. 9 データセットサイズによる差異を見るために複数のデータセットを用意 Datasets Experiment

© 2023 LayerX Inc. 10 上位のアイテムの順番を評価するための評価指標を設定 • Recall@1, Recall@10 •

© 2023 LayerX Inc. 11 Baselines • SASRec • BERT4Rec(SOTA)

© 2023 LayerX Inc. 12 RQ1 報告されているBERT4RecとSASRecの性能の差におけるNSの影響はいかほどか？ RQ2 gBCEを利用することで予測される確率にどのような効果が出るか？ RQ3

© 2023 LayerX Inc. 13 NSの条件を揃えた場合、BERT4RecがSASRecよりも性能が高いとは言えない。 • NSを行わなければ性能は大きく向上する。 • NSと損失関数の条件をそろえた場合、

© 2023 LayerX Inc. 15 tが1に近いほど(βがαに近いほど)、NSの割合(α)が大きいほど性能が向上する傾向 RQ3 NSの割合(α)やパラメタtはgSASRecの性能にどのような影響を与えるのか？ Results

© 2023 LayerX Inc. 16 NSが小さい際は他の損失関数に比べて性能が改善する。特にSASRecについては顕著である。NSが大きくなると性能差が小さくなる。 RQ4 gBCEをSASRecやBERT4Recにて適用すると性能にどのような影響を与えるのか？

© 2023 LayerX Inc. 18 近年報告された他のモデルと比べても遜色ない性能である。 RQ5 gSASRecは他のモデルと比べてどれほどの性能か？ Results

© 2023 LayerX Inc. 19 • RQ1 報告されているBERT4RecとSASRecの性能の差におけるNSの影響はいかほどか？ ◦ NSの条件を揃えた場合、BERT4RecがSASRecよりも性能が高いとは言えない。

© 2023 LayerX Inc. 20 (Petrov et al., 2023)Aleksandr Petrov