Upgrade to Pro — share decks privately, control downloads, hide ads and more …

WSDM 2012 勉強会 (When Will It Happen?)

@smly
April 07, 2012
2.9k

WSDM 2012 勉強会 (When Will It Happen?)

WSDM勉強会 ( http://atnd.org/events/25943 ) での論文紹介に使ったスライドです

@smly

April 07, 2012
Tweet

More Decks by @smly

Transcript

  1. 今日読むもの( 本しっかり+ ) 1. When Will It Happen? – Relationship

    Prediction in Heterogeneous Information Networks [Sun+ 2012] 2. Inferring Social Ties across Heterogeneous Networks [Tang+ 2012] 3. 他 (※ Rights to all the images belong to their respective owners)
  2. まとめ(問題と貢献) • 異種のノード、異種のリンクで作るネットワー ク(Heterogeneous network)上のリンク予測 • Whether ではなく When を当てる

    • 例: いつ「@y_benjo(人)」が「When Will It Happen? – Relationship Prediction in Heterogeneous Information Networks(論文)」 を引用する(関係を作る)か? • リンク予測のタスクを拡張して, Topological Feature として Meta path を導入 • GLM によるイベント発生時間のモデル化 ※ link prediction のタスク拡張として Relationship prediction を定義していますが 時間を推定するとこ以外はただの問題の言い換えで新規性が薄いためスルー
  3. (同類のノードとエッジで作られる) Homegeneous network での topological feature は既存の研究多数 Common neighbors, preferential

    attachment, katzβ, Adamic/Adar, rooted PageRank, PropFlow など - ノードペアに関するスコアを計算してリンク 予測する (unsupervised な link prediction) ⇒ Meta-path [Sun+ 2011a] を使い 2つの頂点間に対する Heterogeneous network のための特徴量を作る
  4. による関係の定義 Meta-Path = Heterogeneous network 上のパスのテンプレート → A → R

    • 共著関係(A:=Author, P:=Paper) • Author citation 関係(引用してる人の関係) (※ 同じ vertex type 間の edge type は directed edge に対する mapping なので Meta-Path にも向きを記す) (簡略版) (簡略版) 論文ではこの関係を 予測する実験をしている ( Target relation )
  5. 似た著者が を持つ • (type a) – 似た著者が Target relation を持っている

    • が Target relation • を展開して6つの特徴量作る 似た著者
  6. を持っている似た著者 • (type b) – 似た著者が Target relation を持っている •

    が Target relation • を展開して6つ特徴量作る 似た著者
  7. を使った従来手法 Input : object pair の features Output : {

    True , False } グラフのノード間に対して特徴量を計算して ロジスティック回帰のモデルを作成しリンク予測 (時刻予測のモデルではない) ⇒ 一般化線形モデル (GLM) として一般化できる (Y = f( Xβ ) , Y~Bernoulli でパラメータを求める) ⇒ [Sun+ 2012] では Y にイベント待ち時間などのモ デルとして用いられる分布を仮定しモデルを提案
  8. イベント待ち時間によく 用いられる分布 λ := mean waiting time k := shape

    parameter shape parameter を 変化させたときの pdf. 赤の pdf. (k = 1) が exponential distribution ( 注: 論文では λ:=shape, θ:=mean waiting time) λ (mean waiting time) は固定 k: Increase/decrease happening rate along the time
  9. • 実験では引用ある/なし, それぞれ 7000 pair 用いる • Future interval 内に

    y_i がある場合は pdf を使う • Future interval 外 (時間 T 以内に関係を作らない) に y_i がある場合 future interval より先の確率( CDF ) T 区間内の訓練データで 引用関係がある場合 T 区間内の訓練データで 引用関係がない場合
  10. • Log-likelihood を最大化するパラメータ探す – Weibull のモデルは β, λ (shape parameter)

    – Geometric のモデルは β • 勾配法 (Newton-Raphson method) を使う – 勾配求めてパラメータ更新していく – Weibull のモデルでは交互にパラメータ更新
  11. 関係が作られる時間をモデル化したことで以下の 質問に答えることができる 1. t 年以内に2つのオブジェクト間に関係が作ら れるか? Ans: 得られたパラメータを用いてPr(y_test <= t)

    2. 2つのオブジェクト間に関係が作られる平均 の時間は? Ans: 期待値 E(y_test) を計算すればよい 3. 確率αでいつ relationship ができるか? Ans: F_Y(y_test) = α となる y_test を答える
  12. • 「リンクの (ある/ない)」を隠して Test set 作成 • 予測する未来のインターバール T を変えて実験

    • 時間予測ではなくリンク予測のみの性能はロジ スティック回帰が良い(あまり変わらない) – では訓練時とテスト時のインターバル T が異 なる場合は … ? (Table 3, Table 4)
  13. • 得られた分布で、関係を作る時間を当てることが できるのか? – Confidence interval ごとに True relationship が出

    現する割合を調べる • 特に小さい confidence interval で True relationship が出現する (10-90, 0-80 比較) • 推定のタイトな上限を与えるので有用
  14. • Philip S. Yu と他の関係について citation 関係構築の時 間予測(GLM-weib, λ=0.9331) –

    the citation relationship has a higher hazard happening at an earlier time • Median や Confidence interval が予測において有用 • Ground truth と有意に異なるのでより深い研究が必要 • David Maier を引用すべきなのにしていない. 引用すべ き文献を推薦する用途にも提案モデルが利用できる 50% quantile
  15. まとめ(再掲) • 異種のノード、異種のリンクで作るネットワー ク(Heterogeneous network)上のリンク予測 • Whether ではなく When を当てる

    • 例: いつ「@y_benjo(人)」が「When Will It Happen? – Relationship Prediction in Heterogeneous Information Networks(論文)」 を引用する(関係を作る)か? • リンク予測のタスクを拡張して, Topological Feature として Meta path を導入 • GLM によるイベント発生時間のモデル化 ※ link prediction のタスク拡張として Relationship prediction を定義していますが 時間を推定するとこ以外はただの問題の言い換えで新規性が薄いためスルー
  16. 気になったところ • Heterogeneous network として扱う必然性 OR Meta Path を topological

    feature として使う 必然性がわからない – 比較している [Popescul & Ungar 2003] は 元々 homogeneous network におけるモデル であり, ノードごとに RDB から特徴量作成 – 他の homogeneous network における topological feature と比較して Meta Path が有用か気になる – Author-Author ではなく heterogeneous な関係 を予測する検証であれば違和感少ないけど…
  17. • Feature selection in a relational environment using relational language

    [Popescul & Ungar 2003] • Systematically exploring the topological features in heterogeneous networks [Sun+ 2012]
  18. 気になったところ • Table 5 の Predicted time の MAE が大きく

    出来の良いモデルには見えない – 提案モデルごとの比較はできるが MAE が大きいの か小さいのか絶対的な判断ができない(=問題が ムズカシイか否か) – Ground Truth の平均をすべて出力する Predictor を baseline とすれば MAE 大きくても |T| / 2 程度
  19. 今日読むもの( 本しっかり+ ) 1. When Will It Happen? – Relationship

    Prediction in Heterogeneous Information Networks [Sun+ 2012] 2. Inferring Social Ties across Heterogeneous Networks [Tang+ 2012] 3. 他 (※ Rights to all the images belong to their respective owners)
  20. 4 つの Social Theory を用いて source network と Target network

    で知識を共有 (Social balance, structural hole, social status, two-step-flow) → 詳しくは論文を参照してくds (´・ω・`)
  21. その他 を扱った話題 • On clustering heterogeneous social media objects with

    outlier links Guo-Jun Qi, Charu C. Aggarwal, Thomas S. Huang – Social media (Flicker) を clustering するために Tri-partite graph (tags, multimedia objs, users) 上の random filed model (HRF) を提案 • mTrust: discerning multi-faceted trust in a connected world Jiliang Tang, Huiji Gao, Huan Liu – Trust Relationship の表現と, その強さの推定 (Reting prediction な ど) について Product review (Epinion, Ciao) のドメインで研究 • Beyond 100 million entities: large-scale blocking-based resolution for heterogeneous data George Papadakis, Ekaterini Ioannou, Claudia Niederée, Themis Palpanas, Wolfgang Nejdl • Pairwise cross-domain factor model for heterogeneous transfer ranking Bo Long, Yi Chang, Anlei Dong, Jianzhang He 感想: 門外漢から見るとクロールしたものを使う研究が多く、 実験結果を再現することが困難なものが多いという 印象を受けた. メタデータいっぱい持つ会社様に期待したい.