Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: Web Table Retrieval using Multimodal Deep...

論文紹介: Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020) Table Search Using a Deep Contextualized Language Model (SIGIR 2020) / ir-reading-2020-fall

IR Reading 2020 秋 での論文紹介に使用したスライドです.
https://sigir.jp/post/2020-10-31-irreading_2020fall/

紹介した論文
1. Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020)
2. Table Search Using a Deep Contextualized Language Model (SIGIR 2020)

Yu Nakano / 中野優

October 31, 2020
Tweet

More Decks by Yu Nakano / 中野優

Other Decks in Research

Transcript

  1. IR Reading 2020秋 1. Web Table Retrieval using Multimodal Deep

    Learning (SIGIR 2020) 2. Table Search Using a Deep Contextualized Language Model (SIGIR 2020) 紹介する⼈ 筑波⼤学加藤研究室 D1 中野 優 ※ 図表は基本的に論⽂より引⽤ https://sites.google.com/view/yu-nakano
  2. 問題設定: アドホック表検索タスク 2 図は Zhang and Balog, Ad Hoc Table

    Retrieval using Semantic Similarity. In WWW 2018. より • ⼊⼒: クエリ ‒ 例: シンガポール • 出⼒: 表のランキング ‒ 例: シンガポールの GDP の表や シンガポールの⺟国語の割合などの表
  3. • 表の検索は複数のフィールドを持つ⽂書の検索である ‒ Multi-field Document Retrieval ‒ フィールドごとに異なった性質を持つ ‒ フィールドは必ずしも⽂章とは限らない

    • 例: 表検索の場合だとセルは数値の場合もある 複数フィールドを持つ⽂書としての表 3 表検索 Web 検索 商品検索 • タイトル • キャプション • 列名 • 表の中⾝ (⾏・列・セル) • タイトル • URL • 本⽂ • アンカーテキスト • 過去にその⽂書が クリックされたクエリ • 商品名 • 商品の画像 • カテゴリ • 説明 • 過去の売上
  4. Web Table Retrieval using Multimodal Deep Learning (SIGIR 2020) 1

    本⽬の論⽂ 著者: Roee Shraga (Israel Institute of Technology), Haggai Roitman, Guy Feigenblat, Mustafa Canim (IBM Research)
  5. • 表をマルチモーダルなデータであるとみなし モダリティ(=フィールド)ごとに異なる構造の NN で Encode した後にモダリティを統合する ⼀⾔でいうと 5 1.

    表を個別の モダリティへ変換 2. モダリティごとに Encoding 3. GMU で モダリティを統合 クエリ キャプション タイトル 列名 列の集合 ⾏の集合
  6. ⼿法: 1. 表を個別のモダリティへ変換 6 クエリ キャプション タイトル 列名 列の集合 ⾏の集合

    1. 表を個別の モダリティへ変換 2. モダリティごとに Encoding 3. GMU で モダリティを統合 処理の流れ ① 各フィールドごとに tokenize ② Glove で埋め込みベクトルに変換 注: 表中の数値も Glove 中に語彙として 含まれるならそのまま変換する
  7. ⼿法: 2. モダリティごとに Encoding 7 1. 表を個別の モダリティへ変換 2. モダリティごとに

    Encoding 3. GMU で モダリティを統合 クエリ キャプション タイトル 列名 列の集合 ⾏の集合 モダリティ(=フィールド)ごとの Encoding のための NN の構造 ・クエリ/キャプション・タイトル → RCNN で変換 ・列名 → MLP で変換 ・列の集合/⾏の集合 → 3D-CNN で変換
  8. ⼿法: 3. GMU でモダリティを統合 8 1. 表を個別の モダリティへ変換 2. モダリティごとに

    Encoding 3. GMU で モダリティを統合 クエリ キャプション タイトル 列名 列の集合 ⾏の集合 Gated MultiModal Unit (GMU) での モダリティごとの表現の統合⼿順 ① 表のモダリティごとの表現を GMU で統合 ② 1 で得た表の表現とクエリの 表現を GMU で統合 ③ MLP でランキングのための スコアを推定 ① ② ③
  9. 実験 9 データセット WikiTables GNQTables クエリの形式 キーワード (=短い) 質問⽂ (=⻑い)

    表の取得元 Wikipedia WebTable 表データ数 1.6 M 75 K クエリ数 60 610 適合度の grade 数 3 2 ベースライン ⼿法との⽐較 WikiTables GNQTables nDCG@20 MAP nDCG@20 MAP 既存⼿法: Multi-Field (field ごとの線形結合) 61.15 44.77 37.59 31.13 既存⼿法: NRM-F (multi-field 検索⽤ NN) 64.97 48.39 54.47 47.81 提案⼿法 73.70 60.58 72.20 63.28 WikiTables GNQTables nDCG@20 MAP nDCG@20 MAP 全て使う 73.70 60.58 72.20 63.28 キャプション・ タイトルを使わない 55.96 38.03 63.52 52.55 列名を使わない 67.89 54.43 68.39 58.42 列の集合を使わない 67.40 54.06 61.05 49.59 ⾏の集合を使わない 60.32 40.29 51.21 40.22 フィールド(モダリティ)ごとの ablation study 下線 は最もスコアが低い値を意味する (=最も影響が⼤きいモダリティである) ・WikiTables はキャプション・タイトル ・GNQTables は⾏の集合 を使わない場合がそれぞれ最もスコアが低い → クエリ形式の性質による違いと推測される
  10. Table Search Using a Deep Contextualized Language Model (SIGIR 2020)

    2 本⽬の論⽂ 著者: Zhiyu Chen, Mohamed Trabelsi, Jeff Heflin (Lehigh University), Yinan Xu (Zhuiyi Technology), Brian D. Davison (Lehigh University)
  11. • BERT で表検索をするために⼊⼒⻑制限を回避する ⽅法をいくつか⽐較・検討した ⼀⾔でいうと 11 WikiTables データセットにおける フィールドごとの⻑さの統計情報 約

    1/4 の表は BERT の⼊⼒⻑制限 (512 token) に引っかかる 計算コストのために ⼩さいモデルを使おうとすると その割合はさらに増加する
  12. フィールドの扱い 12 キャプション タイトル 列名 列の集合 ⾏の集合 本論⽂では表のフィールドを 以下のように使い分ける セルの集合

    → BERT に⼊⼒としてと そのまま⽤いる で類似度が⾼いもののみを クエリとの類似度を計算する ( ) ( ) ⼿法の概要 BERT の⼊⼒として⽤いる
  13. ⼿法(概要) 14 列の集合 ⾏の集合 ① セルの集合 を以下の列に変換し BERT に⼊れる [

    を⽤いてクエリとの から 類似度でランキングし ② [CLS], , [SEP], , [SEP], item1 , [SEP], item2 item M … , [SEP] ] ③ を MLP で Encode し ② で得た BERT の 表現と合わせてランキングのスコアを推定する item1 item2 item M … (= ) とする ① ② ③ ⼿法の概要 (⼊⼒⻑制限を超える場合は超過分を捨てる)
  14. 実験 15 データセット WikiTables WebQueryTable クエリの形式 キーワード キーワード 表の取得元 Wikipedia

    Web+Wikipedia 表データ数 1.6 M 273 K クエリ-表のペア数 3,120 21,113 適合度の grade 数 3 2 類似度 表の内容 MAP NDCG@20 既存⼿法 0.5711 0.6111 BERT Mean セル 0.6104 0.6388 Max セル 0.6129 0.6395 Sum セル 0.6207 0.6454 Mean 列 0.6108 0.6412 Max 列 0.6086 0.6362 Sum 列 0.6131 0.6390 Mean ⾏ 0.6196 0.6463 Max ⾏ 0.6311 0.6564 Sum ⾏ 0.6199 0.6445 類似度 表の内容 MAP 既存⼿法 0.6718 BERT Sum ⾏ 0.7104 WebQueryTable での結果 WikiTables での結果 ・どの類似度・表の内容でも既存⼿法よりも性能がよかった ・類似度=「Max」,表の内容=「⾏」を⽤いた場合が 最もよかった ・BERT のみを⽤いる(特徴量ベースと組み合わせない) 場合でも同じ傾向であった 論⽂中では類似度=「Max」,表の内容=「⾏」を⽤いた場合は 他のどの組み合わせと⽐較しても統計的有意であった, と書かれていたが,多重⽐較補正の話がどこにも出てこない ため補正が⾏われていない可能性がありそう.
  15. アドホック表検索タスクに対して 1. 表をマルチモーダルなデータとみなしてランキングする⼿法 2. BERT を⽤いてランキングする⼿法 がそれぞれ提案された • 所感 ‒

    複数フィールドを持つ⽂書の検索はフィールドの扱い⽅にこそに ⼯夫の余地があるという印象 ‒ 表検索は⼿法が乱⽴し始めており⽐較がちゃんとなされていない ように感じる 本発表のまとめ 16