Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The Web Conference 2022 国際会議報告 丸田

Avatar for Atsuki Maruta Atsuki Maruta
July 24, 2022
190

The Web Conference 2022 国際会議報告 丸田

Avatar for Atsuki Maruta

Atsuki Maruta

July 24, 2022
Tweet

Transcript

  1. StruBERT: Structure-aware BERT for Table Search and Matching の紹介 Pengcheng

    Yin, Graham Neubig, Wen-tau Yih, Sebastian Riedel 筑波⼤学 加藤研究室 修⼠ 2年 丸⽥ 敦貴
  2. 背景: 表検索 2 クエリと表形式データのペアを⼊⼒し、各ペアの適合度を出⼒ クエリ 適合度: 2.0 スペイン出⾝の サッカー選⼿ ⼊⼒

    表検索 モデル 出⼒ 適合度: 0.1 各ペアの適合度 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 年 ⼈⼝ 国 GDP 2017 1.2 ⽇本 4.9 2017 6.0 アメリカ 19.5 2022 6.4 アメリカ 23.0 … 国の統計に関する表形式データ 出⼒ サッカー選⼿に関する表形式データ
  3. 背景: 表マッチング 3 類似度: 0.8 選⼿ チーム 番号 ロナウド Manchester

    United 7 メッシ Paris 30 ラモス Real Madrid 4 サッカー選⼿に関する表形式データのペア 表形式データのペアを⼊⼒し、各ペアの類似度を出⼒ 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表マッチング モデル 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 年 ⼈⼝ 国 GDP 2017 1.2 ⽇本 4.9 2017 6.0 アメリカ 19.5 2022 6.4 アメリカ 23.0 サッカー選⼿に関する表形式データと 国の統計に関する表形式データのペア 類似度: 0.1 ⼊⼒ 出⼒ 各ペアの類似度 …
  4. 背景: BERT 4 • 事前学習済みモデルのBERT[1]は⾃然⾔語処理に関する様々な タスクで⾼い性能を⽰す深層学習モデル • 表検索タスクでもBERTを応⽤した⼿法が⾼い性能を⽰している[2] ‒ 表形式データから抽出したデータのみをBERTに⼊⼒しており、⾏や列といっ

    た表形式データの構造を考慮していない 表形式データの構造情報をBERTに⼊⼒する表検索と表マッチング の⼿法は提案されていない [1] Devlin et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”,arXiv:1810.04805 (2018). [2] Chen et al. “Table Search Using a Deep Contextualized Language Model” SIGIR 2020.
  5. 表形式データの構造を考慮したBERTベースの 表検索、表マッチング⼿法を提案 研究の⽬的 5 スペイン出⾝のサッカー選⼿ 適合度: 1.2 表形式データとクエリのペア 表形式データのペア 類似度:

    0.8 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 表検索 ⼿法 ⼊⼒ 出⼒ 表マッチング ⼿法 出⼒ ⼊⼒
  6. 表形式データの構造を考慮した埋め込みを 表検索、表マッチングのランキングモデルに⼊⼒する 提案⼿法 6 構造を考慮した 表形式データの 埋め込み 適合度: 2.0 出⼒

    ⼊⼒ スペイン出⾝のサッカー選⼿ 表形式データとクエリのペア 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表形式データのペア 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 埋め込み モデル 表検索 ランキング モデル 表マッチング ランキング モデル 類似度: 0.8 出⼒ ⼊⼒ 提案⼿法の概要図
  7. 表形式データの構造を考慮した埋め込みモデルと 表検索、表マッチングのランキングモデルを提案 提案⼿法 7 構造を考慮した 表形式データの 埋め込み 適合度: 2.0 出⼒

    ⼊⼒ スペイン出⾝のサッカー選⼿ 表形式データとクエリのペア 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表形式データのペア 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 埋め込み モデル 表検索 ランキング モデル 表マッチング ランキング モデル 類似度: 0.8 出⼒ ⼊⼒ 提案⼿法の概要図
  8. • 表形式データの構造 ‒ 列: 複数のデータを1つの属性で表現 ‒ ⾏: 1件のデータを複数の属性で表現 • 表形式データの構造を考慮した埋め込み

    = 列と⾏のデータの関係性を保つ埋め込み ‒ 例)「メッシ」というセルが⼈の「名前」で「Paris」というチームに所属して、 「アルゼンチン」という国出⾝であることを表すような埋め込みを⾏いたい • 表形式データの各列をテキストに変換してBERTに⼊⼒する⼿法[3]が 表形式データの質問応答タスクで⾼い性能を⽰している 提案⼿法: 表形式データ埋め込みのアイデア 8 各列と各⾏をテキストに変換してBERTに⼊⼒することで 表形式データの構造情報を埋め込む 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 列 ⾏ 表形式データ [3] Yin, et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”. ACL 2020.
  9. • 表形式データの列と⾏をテキストに変換し、BERTに⼊⼒ ‒ 各セルをヘッダ、データタイプ(text or real)、値の3つで表現 ‒ 例) セル「メッシ」→「名前 text

    メッシ」 提案⼿法: 表形式データ埋め込み 9 列テキスト ⾏テキスト BERT 表形式データの埋め込み 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン スペイン出⾝のサッカー選⼿ 表形式データ クエリ [CLS]クエリ[SEP] 選⼿ text ラモス [SEP]…スペイン[SEP] [CLS]クエリ[SEP] 選⼿ text ロナウド [SEP]…ルトガル[SEP] [CLS]クエリ[SEP] 選⼿ text メッシ [SEP]…アルゼンチン[SEP] [CLS]クエリ[SEP] 国 text アルゼンチン [SEP]…スペイン[SEP] [CLS]クエリ[SEP] チーム text Paris [SEP]…Madrid[SEP] [CLS]クエリ[SEP] 選⼿ text メッシ [SEP]…ラモス[SEP] テキスト変換 ⾏テキストの BERT出⼒ 列テキストの BERT出⼒ 結合
  10. 表形式データの構造を考慮した埋め込みモデルと 表検索、表マッチングのランキングモデルを提案 提案⼿法 10 構造を考慮した 表形式データの 埋め込み 適合度: 2.0 出⼒

    ⼊⼒ スペイン出⾝のサッカー選⼿ 表形式データとクエリのペア 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表形式データのペア 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 埋め込み モデル 表検索 ランキング モデル 表マッチング ランキング モデル 類似度: 0.8 出⼒ ⼊⼒ 提案⼿法の概要図
  11. • BERTを簡単にしたminiBERTに表形式データの埋め込みを⼊⼒ ‒ 1層のTransformer層 ‒ テキストではなくベクトルを⼊⼒する 提案⼿法: ランキングモデル 11 表形式データの埋め込み

    ⼊⼒ miniBERT 出⼒ 適合度: 2.0 表検索ランキングモデル 表マッチングランキングモデル 2つの表形式データの埋め込み miniBERT 類似度: 0.8
  12. • 表マッチングタスク ‒ 表形式データのペアを⼊⼒し、類似度を予測するタスク ‒ データセット: PMC ‒ 評価指標: 適合率、再現率、F値

    ‒ ⽐較対象: TabSim[4]、TaBERT[3] • 表検索タスク ‒ クエリと表形式データを⼊⼒し、適合度を予測するタスク ‒ データセット: WikiTables ‒ 評価指標: nDCG、MRR、MAP ‒ ⽐較対象: TaBERT[3]、BERT-Row-Max[5]、DSRMM[6] 実験 12 実験の結果、提案⼿法が最も⾼い性能を⽰した [4] Habibi, et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”. Big Data 2020. [5] Chem, et al. “Table Search Using a Deep Contextualized Language Model”. SIGIR 2020. [6] Trabelsi, et al. “A Hybrid Deep Model for Learning to Rank Data Tables”. Big Data 2020.
  13. • 研究⽬的 ‒ 表形式データの構造を考慮したBERTベースの表検索、表マッチング⼿法 を提案 • 提案⼿法 ‒ 表形式データの構造を考慮した埋め込みを作成し、ランキングモデルに⼊ ⼒

    • 実験結果 ‒ 3つのタスクにおいて提案⼿法が最も⾼い性能を⽰した • 表マッチングタスク • キーワードベース表検索タスク • コンテンツベース表検索タスク まとめ 13
  14. • データセット: PMC 実験結果: 表マッチング 14 0.5 0.6 0.7 0.8

    0.9 提案⼿法 TaBERT[1] TabSim[2] ベースライン⼿法 提案⼿法 (CNN) 表マッチングタスクにおいて、提案⼿法が最も⾼い性能を⽰した F値 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [2] Habibi et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”, Big Data 2020. Tfidf Embedding Tfidf & Embedding
  15. 0.3 0.4 0.5 0.6 0.7 • データセット: WikiTables 実験結果: キーワード表検索

    15 nDCG@5 提案⼿法 提案⼿法 (coarse) 提案⼿法 (fine) BERT-Row -Max[3] TaBERT[1] DSRMM[4] BM25 キーワード表検索タスクにおいて、提案⼿法が最も⾼い性能を⽰した ベースライン⼿法 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [3] Chen et al. “Table Search Using a Deep Contextualized Language Model”, SIGIR 2020. [4] Trabelsi et al. “A Hybrid Deep Model for Learning to Rank Data Tables. ”, Big Data 2020.
  16. • データセット: query by example 実験結果:コンテンツベース表検索 16 0.45 0.5 0.55

    0.6 0.65 提案⼿法 TaBERT[1] TabSim[2] 提案⼿法 (CNN) DSRMM[4] BM25 コンテンツベース表検索タスクにおいて、提案⼿法が最も⾼い性能を⽰した nDCG@5 ベースライン⼿法 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [2] Habibi et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”, Big Data 2020. [4] [4] Trabelsi et al. “A Hybrid Deep Model for Learning to Rank Data Tables. ”, Big Data 2020.
  17. 17

  18. VisGNN: Personalized Visualization Recommendation via Graph Neural Networks の紹介 Fayokemi

    Ojo, Ryan A. Rossi, Jane Hoffswell, Shunan Guo, Fan Du, Sungchul Kim, Chang Xiao, Eunyee Koh 筑波⼤学 修⼠2年 丸⽥ 敦貴
  19. 背景: 可視化推薦 19 ⼊⼒されたデータから適切な可視化を推薦する技術 年 ⼈⼝ 国 GDP 2017 1.2

    ⽇本 4.9 2017 6.0 アメリカ 19.5 2022 6.4 アメリカ 23.0 ⼊⼒ 出⼒ ⼈⼝ 2017 2022 2019 年 1.23 1.24 1.25 1.26 1.27 データ 可視化 可視化推薦システムの概要図 … 可視化推薦 システム
  20. 可視化推薦の既存研究 20 ⼊⼒されたデータの統計情報から事前に決められたルールや機械学習を ⽤いて適切な可視化を推薦する⼿法が提案されている[1, 2] 既存⼿法ではデータのみに基づいており、ユーザの好みを考慮していない 年 ⼈⼝ 2017 1.24

    2018 1.23 2019 1.18 2020 1.10 データ 抽出 列数 : 2, ⾏数 : 4 “年” データタイプ: 数値 値の平均値: 2018.5 “⼈⼝” … ⼊⼒ 既存⼿法 ⼈⼝ 2017 2020 年 出⼒ 性別 ID 男性 1 男性 2 ⼥性 3 1 1.2 1.4 2018 2019 列数 : 2, ⾏数 : 3 “性別” データタイプ: ⽂字 “⼈⼝” データタイプ: 数値 … データの統計情報 男性 ⼥性 可視化 抽出 [1] Vartak, et al. “Towards visualization recommendation systems”. SIGMOD 45, 4 (2017), 34‒39. [2] Hu, et al. “VizML: A Machine Learning Approach to Visualization Recommendation”. CHI 2019.
  21. 推薦 システム 推薦 システム ユーザの可視化の好みを推定する可視化推薦システムを提案 研究の⽬的 21 ユーザ データ 推薦

    システム 出⼒ ユーザの好みを反映した可視化 可視化推薦システム ⽇本の都道府県 の⼈⼝データ 時間経過を 分析する可視化 ユーザの好み 年 ⼈⼝ 出⽣率 転出率 2017 1.24 20 4.9 2018 1.23 19 19.5 2019 1.18 18 23.0 1.15 1.2 1.25 2017 2018 2019 ⼈⼝ 年 ⼊⼒ ユーザの好みを推定することでユーザにとって適切な可視化を推薦
  22. この研究ではユーザの可視化の好みを2つに分類 1. ユーザのデータの好み 2. ユーザの可視化⽅法の好み ユーザの可視化の好み 23 ユーザA ⻑野県の ⼈⼝データ

    茨城県の ⼈⼝データ ユーザAが過去に使ったデータ 推定 ⽇本の都道府県の ⼈⼝データ ユーザAのデータの好み 年 ⼈⼝ 出⽣率 転出率 2017 1.24 20 4.9 2018 1.23 19 19.5 2019 1.18 18 23.0 ユーザAの⼊⼒データ 推定 ユーザA X軸:⽼年⼈⼝ Y軸:年 折れ線グラフ ユーザAが過去に⾏った可視化 X軸:年少⼈⼝ Y軸:年 折れ線グラフ 時間経過による変化を 分析する可視化 推定 ユーザAの可視化の好み 推定 年 ⼈⼝ 2017 1.24 2018 1.23 2019 1.18 X軸 Y軸 ユーザAの⼊⼒データ グラフの種類
  23. • データセット ‒ 可視化共有サイトPlot.lyから収集したデータ • 評価⽅法 ‒ データセットの中の特定のデータからそのデータを⽤いた可視化⽅法を推 薦できるかどうか ‒

    評価指標: HR, nDCG ‒ ⽐較対象: k近傍ベース⼿法、eALS[3] • 結果 提案⼿法が最も⾼い性能を⽰した 実験 26 [3] He, et al. “Fast Matrix Factorization for Online Recommendation with Implicit Feedback”. SIGIR 2016
  24. 実験結果: データ推薦 29 0 0.1 0.2 0.3 0.4 0.5 0.6

    0.7 0.8 提案⼿法 K近傍法 Rondom HR@K K=1, 3, 5 K=1, 3, 5 K=1, 3, 5 データ推薦タスクにおいて、提案⼿法が最も⾼い性能を⽰した