論文読み会 KDD2022 | Multi-Behavior Hypergraph-Enhanced Transformer for Sequential Recommendation

Multi-Behavior Hypergraph-Enhanced Transformer for Sequential Recommendation (KDD'22) 読む人: @cocomoff Feb.
27, 2024 （マニアックすぎるので、数式の細かい読解まではやっていません…）

概要多数の振る舞い (Multi-Behavior) が含まれる系列推薦では、長短期のアイテム間の関係性を考慮しながら、次のアイテムを推薦する必要がある KDD'22では、アイテム間のハイパーグラフとTransformerを適用して、高精度に推薦する手法 (MBHE) を提案したコンセプト
(TKDEの別の論文より拝借)

結果の表 (一部) 2つの要素 (グラフ構造＆Multi-Behavior) をうまく併用したコンセプト (TKDEの別の論文より拝借)

結果の図 (一部) ユーザ毎に振る舞いの関係性や、系列をいい感じに見る仕組み (fine- grained length )、対象とする振る舞い毎の差、などが観察できるコメント: これだけ見ても意味分からんわ… 本文図6
(いろいろな重みの観察)

提案手法のやりたいことのコンセプト図 (載せただけ) コメント: 特に情報量なし… 本文図1 (a)コンセプト (b)長期・短期に関する重みの違い

提案手法のコンセプト図構成要素 (a) 埋め込み (b) 低次元埋め込み (Transformerなどを楽にする) (c) (ハイパー)グラフでアイテムなどの情報を集約して伝搬本文図2

はじめに & やりたいタスク注意事項細かい数式の解説は全部やりません無限に系列推薦の手法が世の中にあり、マニア以外興味ない… 系列推薦 ≒ 系列予測なので、似たアイデアはどこかで使えるかも？ぐらいの気持ちで説明します
所与: 振る舞いラベル付きデータ全アイテム、全ユーザユーザのログ目的の振る舞い (target behav.) とそれ以外 (aux. behav.) があるタスク入力: 出力: target behavior (e.g., 購入) なアイテムを予測する (ようなモデルを得たい、ということ)

手法の説明(1): 埋め込み全ては埋め込みからはじめる系列中のアイテムの特徴ベクトルアイテム、振る舞い、位置
の要素和それぞれ次元に埋め込みする長さのを表現する行列を料理する (e.g., Attention, Transformer) どこかで見覚えのある式アイテム数がヤバそうな気配がある (行列積) Transformer を軽くする提案は色々研究されている (はず) 今回も低ランクな Self-Attention モジュールを採用する

手法の説明(2): 低ランク Self-Attention 学習可能な行列: を用いてとかは前ページのとかの意味です (learnable weight mat.)
論文による解説変換行列が定義できる (省略) ( )-次元のkey/valueに相当するを ( )-次元の低ランク埋め込みに変形して、サイズの計算を避ける

手法の説明(3): 短期・長期パターンの考慮系列の短期・長期パターンを考慮して aggregation する簡単な例: 長さの列に対して、ずつ移動平均を取る式:
論文の表記はあまりよく分からないけど… に集約されているので、ここにもself-attentionを使うこちらのQ/K/Vの重みは適当な型でいい感じに… ( に応じて) コメント: ギュっとしたらここまではすぐできる (たぶん)

続きここまでで計算したもの : 低ランク埋め込みした情報 : 短期・長期を見た情報ノリ: 3つの行列を列方向にconcat ( )
して学習可能なを通すこれを1つのヘッドとして、複数用いるただし最後に FFN と活性化関数 GELU を通してエンコード完了コメント: ここまでは Transformer しただけとも言える（？）

寄り道: グラフ構造の利用トピック2: グラフ構造を利用するとは? 何らかの方法で構築したグラフ構造から、埋め込みベクトルを集約したりして、新しい特徴ベクトルにする枠組み (e.g., GNN) とあるMDPI論文のグラフィカルアブストラクト (コメント:
こういうタイプの研究 (e.g., グラフの作り方) も無限にあるので本当にオタク以外どうでもいい…)

手法の説明(4): Hypergraph-Enhanced Features 提案手法ではハイパーグラフを使う: 隣接 (普通の辺) より高次の関係性を使いたいから (コメント: ちょっと珍しい
(かも)) 提案の超辺構造 (1) 長期間の相関関係によるもの (下) (2) アイテム自身のmulti-behaviorによるもの (上) 本文図 (コメント: 図だけだと、何が言いたいのか最初まったく分からん…→次ページへ!)

参考: グラフとハイパーグラフ

続き提案手法列に出現するユニークなアイテム数の超辺を考える超辺 (ユニークなアイテムに対応) は、別に定義する重み (略)
が大きい順に個のと超辺をつくる二部グラフっぽい情報は隣接行列で表現できるコメント: なので一見、どこがハイパーグラフかよく分からなかったこれを2つ作る ( ) ユニークアイテムが2つ (灰色・オレンジ)なので、こうなる (たぶん)。点線は超辺の関係性を二部グラフっぽくかいたもの (たぶん)。同じ色しかつながってないのはたまたま (たぶん)。

続き ( ) から2つの重み行列を持つので、くっつけてとするハイパーグラフと行っているが、要するに2部グラフ (アイテムと超辺) グラフなので、思考停止してmessage passingするアイテム
超辺、頂点アイテム Hypergraph conv. layer と呼ばれているらしい (なんだそりゃ…) 普通のGraph conv. layerと見た目は一緒 (数式書くのが辛くなった): 何層かpassingして、を求める一旦雑に振り返る持っているもの Transformerっぽい構造から埋め込んできたハイパーグラフから埋め込んできたものデータが2種類ある (data from different view、と呼ばれている) 2つあるので、重みつけてまとめる (cross-view aggregationと呼ぶ) 何か埋め込みベクトルが出てくるので、クロスエントロピー学習する

提案手法のコンセプト図 (振り返り) 構成要素 (a) 埋め込み (b) 低次元埋め込み (Transformerなどを楽にする) (c) (ハイパー)グラフでアイテムなどの情報を集約して伝搬
本文図2

実験よくあるデータセットで実験

実験結果 (一部のみ)

実験結果 (ablation) それぞれを引き算した結果

viewの重みとのcross-view aggregation の寄与系列的な情報 (Transformer部) と、グラフ情報でどちらが寄与したか

手法の性能と系列の長さの関係正直あまりよく分からない… Groupは長さに応じて5つぐらのクラスタで実験した、という意味らしい

HRと学習エポック序盤から性能が良い LightGCNとかのシンプルモデルじゃないので結構ムズそうだが、学習が早いのは確かに良い気がする

ケーススタディ (再掲) 言えそうなこと 2つのaggregationパラメータで特徴が違う behaivor間と個人間で特徴が違うコメント: 何が嬉しいのか分からん…

論文読み会 KDD2022 | Multi-Behavior Hypergraph-Enhan...

論文読み会 KDD2022 | Multi-Behavior Hypergraph-Enhanced Transformer for Sequential Recommendation

cocomoff

More Decks by cocomoff

Other Decks in Research

Featured

Transcript

Multi-Behavior Hypergraph-Enhanced Transformer for Sequential Recommendation (KDD'22) 読む人: @cocomoff Feb.

結果の表 (一部) 2つの要素 (グラフ構造＆Multi-Behavior) をうまく併用したコンセプト (TKDEの別の論文より拝借)

結果の図 (一部) ユーザ毎に振る舞いの関係性や、系列をいい感じに見る仕組み (fine- grained length )、対象とする振る舞い毎の差、などが観察できるコメント: これだけ見ても意味分からんわ… 本文図6

提案手法のやりたいことのコンセプト図 (載せただけ) コメント: 特に情報量なし… 本文図1 (a)コンセプト (b)長期・短期に関する重みの違い

提案手法のコンセプト図構成要素 (a) 埋め込み (b) 低次元埋め込み (Transformerなどを楽にする) (c) (ハイパー)グラフでアイテムなどの情報を集約して伝搬本文図2

手法の説明(1): 埋め込み全ては埋め込みからはじめる系列中のアイテムの特徴ベクトルアイテム、振る舞い、位置

手法の説明(2): 低ランク Self-Attention 学習可能な行列: を用いてとかは前ページのとかの意味です (learnable weight mat.)

手法の説明(3): 短期・長期パターンの考慮系列の短期・長期パターンを考慮して aggregation する簡単な例: 長さの列に対して、ずつ移動平均を取る式:

続きここまでで計算したもの : 低ランク埋め込みした情報 : 短期・長期を見た情報ノリ: 3つの行列を列方向にconcat ( )

手法の説明(4): Hypergraph-Enhanced Features 提案手法ではハイパーグラフを使う: 隣接 (普通の辺) より高次の関係性を使いたいから (コメント: ちょっと珍しい