Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The Web Conference 2022 国際会議報告 丸田

Atsuki Maruta
July 24, 2022
150

The Web Conference 2022 国際会議報告 丸田

Atsuki Maruta

July 24, 2022
Tweet

Transcript

  1. StruBERT: Structure-aware BERT for Table Search and Matching の紹介 Pengcheng

    Yin, Graham Neubig, Wen-tau Yih, Sebastian Riedel 筑波⼤学 加藤研究室 修⼠ 2年 丸⽥ 敦貴
  2. 背景: 表検索 2 クエリと表形式データのペアを⼊⼒し、各ペアの適合度を出⼒ クエリ 適合度: 2.0 スペイン出⾝の サッカー選⼿ ⼊⼒

    表検索 モデル 出⼒ 適合度: 0.1 各ペアの適合度 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 年 ⼈⼝ 国 GDP 2017 1.2 ⽇本 4.9 2017 6.0 アメリカ 19.5 2022 6.4 アメリカ 23.0 … 国の統計に関する表形式データ 出⼒ サッカー選⼿に関する表形式データ
  3. 背景: 表マッチング 3 類似度: 0.8 選⼿ チーム 番号 ロナウド Manchester

    United 7 メッシ Paris 30 ラモス Real Madrid 4 サッカー選⼿に関する表形式データのペア 表形式データのペアを⼊⼒し、各ペアの類似度を出⼒ 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表マッチング モデル 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 年 ⼈⼝ 国 GDP 2017 1.2 ⽇本 4.9 2017 6.0 アメリカ 19.5 2022 6.4 アメリカ 23.0 サッカー選⼿に関する表形式データと 国の統計に関する表形式データのペア 類似度: 0.1 ⼊⼒ 出⼒ 各ペアの類似度 …
  4. 背景: BERT 4 • 事前学習済みモデルのBERT[1]は⾃然⾔語処理に関する様々な タスクで⾼い性能を⽰す深層学習モデル • 表検索タスクでもBERTを応⽤した⼿法が⾼い性能を⽰している[2] ‒ 表形式データから抽出したデータのみをBERTに⼊⼒しており、⾏や列といっ

    た表形式データの構造を考慮していない 表形式データの構造情報をBERTに⼊⼒する表検索と表マッチング の⼿法は提案されていない [1] Devlin et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”,arXiv:1810.04805 (2018). [2] Chen et al. “Table Search Using a Deep Contextualized Language Model” SIGIR 2020.
  5. 表形式データの構造を考慮したBERTベースの 表検索、表マッチング⼿法を提案 研究の⽬的 5 スペイン出⾝のサッカー選⼿ 適合度: 1.2 表形式データとクエリのペア 表形式データのペア 類似度:

    0.8 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 表検索 ⼿法 ⼊⼒ 出⼒ 表マッチング ⼿法 出⼒ ⼊⼒
  6. 表形式データの構造を考慮した埋め込みを 表検索、表マッチングのランキングモデルに⼊⼒する 提案⼿法 6 構造を考慮した 表形式データの 埋め込み 適合度: 2.0 出⼒

    ⼊⼒ スペイン出⾝のサッカー選⼿ 表形式データとクエリのペア 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表形式データのペア 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 埋め込み モデル 表検索 ランキング モデル 表マッチング ランキング モデル 類似度: 0.8 出⼒ ⼊⼒ 提案⼿法の概要図
  7. 表形式データの構造を考慮した埋め込みモデルと 表検索、表マッチングのランキングモデルを提案 提案⼿法 7 構造を考慮した 表形式データの 埋め込み 適合度: 2.0 出⼒

    ⼊⼒ スペイン出⾝のサッカー選⼿ 表形式データとクエリのペア 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表形式データのペア 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 埋め込み モデル 表検索 ランキング モデル 表マッチング ランキング モデル 類似度: 0.8 出⼒ ⼊⼒ 提案⼿法の概要図
  8. • 表形式データの構造 ‒ 列: 複数のデータを1つの属性で表現 ‒ ⾏: 1件のデータを複数の属性で表現 • 表形式データの構造を考慮した埋め込み

    = 列と⾏のデータの関係性を保つ埋め込み ‒ 例)「メッシ」というセルが⼈の「名前」で「Paris」というチームに所属して、 「アルゼンチン」という国出⾝であることを表すような埋め込みを⾏いたい • 表形式データの各列をテキストに変換してBERTに⼊⼒する⼿法[3]が 表形式データの質問応答タスクで⾼い性能を⽰している 提案⼿法: 表形式データ埋め込みのアイデア 8 各列と各⾏をテキストに変換してBERTに⼊⼒することで 表形式データの構造情報を埋め込む 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 列 ⾏ 表形式データ [3] Yin, et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”. ACL 2020.
  9. • 表形式データの列と⾏をテキストに変換し、BERTに⼊⼒ ‒ 各セルをヘッダ、データタイプ(text or real)、値の3つで表現 ‒ 例) セル「メッシ」→「名前 text

    メッシ」 提案⼿法: 表形式データ埋め込み 9 列テキスト ⾏テキスト BERT 表形式データの埋め込み 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン スペイン出⾝のサッカー選⼿ 表形式データ クエリ [CLS]クエリ[SEP] 選⼿ text ラモス [SEP]…スペイン[SEP] [CLS]クエリ[SEP] 選⼿ text ロナウド [SEP]…ルトガル[SEP] [CLS]クエリ[SEP] 選⼿ text メッシ [SEP]…アルゼンチン[SEP] [CLS]クエリ[SEP] 国 text アルゼンチン [SEP]…スペイン[SEP] [CLS]クエリ[SEP] チーム text Paris [SEP]…Madrid[SEP] [CLS]クエリ[SEP] 選⼿ text メッシ [SEP]…ラモス[SEP] テキスト変換 ⾏テキストの BERT出⼒ 列テキストの BERT出⼒ 結合
  10. 表形式データの構造を考慮した埋め込みモデルと 表検索、表マッチングのランキングモデルを提案 提案⼿法 10 構造を考慮した 表形式データの 埋め込み 適合度: 2.0 出⼒

    ⼊⼒ スペイン出⾝のサッカー選⼿ 表形式データとクエリのペア 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表形式データのペア 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 埋め込み モデル 表検索 ランキング モデル 表マッチング ランキング モデル 類似度: 0.8 出⼒ ⼊⼒ 提案⼿法の概要図
  11. • BERTを簡単にしたminiBERTに表形式データの埋め込みを⼊⼒ ‒ 1層のTransformer層 ‒ テキストではなくベクトルを⼊⼒する 提案⼿法: ランキングモデル 11 表形式データの埋め込み

    ⼊⼒ miniBERT 出⼒ 適合度: 2.0 表検索ランキングモデル 表マッチングランキングモデル 2つの表形式データの埋め込み miniBERT 類似度: 0.8
  12. • 表マッチングタスク ‒ 表形式データのペアを⼊⼒し、類似度を予測するタスク ‒ データセット: PMC ‒ 評価指標: 適合率、再現率、F値

    ‒ ⽐較対象: TabSim[4]、TaBERT[3] • 表検索タスク ‒ クエリと表形式データを⼊⼒し、適合度を予測するタスク ‒ データセット: WikiTables ‒ 評価指標: nDCG、MRR、MAP ‒ ⽐較対象: TaBERT[3]、BERT-Row-Max[5]、DSRMM[6] 実験 12 実験の結果、提案⼿法が最も⾼い性能を⽰した [4] Habibi, et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”. Big Data 2020. [5] Chem, et al. “Table Search Using a Deep Contextualized Language Model”. SIGIR 2020. [6] Trabelsi, et al. “A Hybrid Deep Model for Learning to Rank Data Tables”. Big Data 2020.
  13. • 研究⽬的 ‒ 表形式データの構造を考慮したBERTベースの表検索、表マッチング⼿法 を提案 • 提案⼿法 ‒ 表形式データの構造を考慮した埋め込みを作成し、ランキングモデルに⼊ ⼒

    • 実験結果 ‒ 3つのタスクにおいて提案⼿法が最も⾼い性能を⽰した • 表マッチングタスク • キーワードベース表検索タスク • コンテンツベース表検索タスク まとめ 13
  14. • データセット: PMC 実験結果: 表マッチング 14 0.5 0.6 0.7 0.8

    0.9 提案⼿法 TaBERT[1] TabSim[2] ベースライン⼿法 提案⼿法 (CNN) 表マッチングタスクにおいて、提案⼿法が最も⾼い性能を⽰した F値 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [2] Habibi et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”, Big Data 2020. Tfidf Embedding Tfidf & Embedding
  15. 0.3 0.4 0.5 0.6 0.7 • データセット: WikiTables 実験結果: キーワード表検索

    15 nDCG@5 提案⼿法 提案⼿法 (coarse) 提案⼿法 (fine) BERT-Row -Max[3] TaBERT[1] DSRMM[4] BM25 キーワード表検索タスクにおいて、提案⼿法が最も⾼い性能を⽰した ベースライン⼿法 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [3] Chen et al. “Table Search Using a Deep Contextualized Language Model”, SIGIR 2020. [4] Trabelsi et al. “A Hybrid Deep Model for Learning to Rank Data Tables. ”, Big Data 2020.
  16. • データセット: query by example 実験結果:コンテンツベース表検索 16 0.45 0.5 0.55

    0.6 0.65 提案⼿法 TaBERT[1] TabSim[2] 提案⼿法 (CNN) DSRMM[4] BM25 コンテンツベース表検索タスクにおいて、提案⼿法が最も⾼い性能を⽰した nDCG@5 ベースライン⼿法 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [2] Habibi et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”, Big Data 2020. [4] [4] Trabelsi et al. “A Hybrid Deep Model for Learning to Rank Data Tables. ”, Big Data 2020.
  17. 17

  18. VisGNN: Personalized Visualization Recommendation via Graph Neural Networks の紹介 Fayokemi

    Ojo, Ryan A. Rossi, Jane Hoffswell, Shunan Guo, Fan Du, Sungchul Kim, Chang Xiao, Eunyee Koh 筑波⼤学 修⼠2年 丸⽥ 敦貴
  19. 背景: 可視化推薦 19 ⼊⼒されたデータから適切な可視化を推薦する技術 年 ⼈⼝ 国 GDP 2017 1.2

    ⽇本 4.9 2017 6.0 アメリカ 19.5 2022 6.4 アメリカ 23.0 ⼊⼒ 出⼒ ⼈⼝ 2017 2022 2019 年 1.23 1.24 1.25 1.26 1.27 データ 可視化 可視化推薦システムの概要図 … 可視化推薦 システム
  20. 可視化推薦の既存研究 20 ⼊⼒されたデータの統計情報から事前に決められたルールや機械学習を ⽤いて適切な可視化を推薦する⼿法が提案されている[1, 2] 既存⼿法ではデータのみに基づいており、ユーザの好みを考慮していない 年 ⼈⼝ 2017 1.24

    2018 1.23 2019 1.18 2020 1.10 データ 抽出 列数 : 2, ⾏数 : 4 “年” データタイプ: 数値 値の平均値: 2018.5 “⼈⼝” … ⼊⼒ 既存⼿法 ⼈⼝ 2017 2020 年 出⼒ 性別 ID 男性 1 男性 2 ⼥性 3 1 1.2 1.4 2018 2019 列数 : 2, ⾏数 : 3 “性別” データタイプ: ⽂字 “⼈⼝” データタイプ: 数値 … データの統計情報 男性 ⼥性 可視化 抽出 [1] Vartak, et al. “Towards visualization recommendation systems”. SIGMOD 45, 4 (2017), 34‒39. [2] Hu, et al. “VizML: A Machine Learning Approach to Visualization Recommendation”. CHI 2019.
  21. 推薦 システム 推薦 システム ユーザの可視化の好みを推定する可視化推薦システムを提案 研究の⽬的 21 ユーザ データ 推薦

    システム 出⼒ ユーザの好みを反映した可視化 可視化推薦システム ⽇本の都道府県 の⼈⼝データ 時間経過を 分析する可視化 ユーザの好み 年 ⼈⼝ 出⽣率 転出率 2017 1.24 20 4.9 2018 1.23 19 19.5 2019 1.18 18 23.0 1.15 1.2 1.25 2017 2018 2019 ⼈⼝ 年 ⼊⼒ ユーザの好みを推定することでユーザにとって適切な可視化を推薦
  22. この研究ではユーザの可視化の好みを2つに分類 1. ユーザのデータの好み 2. ユーザの可視化⽅法の好み ユーザの可視化の好み 23 ユーザA ⻑野県の ⼈⼝データ

    茨城県の ⼈⼝データ ユーザAが過去に使ったデータ 推定 ⽇本の都道府県の ⼈⼝データ ユーザAのデータの好み 年 ⼈⼝ 出⽣率 転出率 2017 1.24 20 4.9 2018 1.23 19 19.5 2019 1.18 18 23.0 ユーザAの⼊⼒データ 推定 ユーザA X軸:⽼年⼈⼝ Y軸:年 折れ線グラフ ユーザAが過去に⾏った可視化 X軸:年少⼈⼝ Y軸:年 折れ線グラフ 時間経過による変化を 分析する可視化 推定 ユーザAの可視化の好み 推定 年 ⼈⼝ 2017 1.24 2018 1.23 2019 1.18 X軸 Y軸 ユーザAの⼊⼒データ グラフの種類
  23. • データセット ‒ 可視化共有サイトPlot.lyから収集したデータ • 評価⽅法 ‒ データセットの中の特定のデータからそのデータを⽤いた可視化⽅法を推 薦できるかどうか ‒

    評価指標: HR, nDCG ‒ ⽐較対象: k近傍ベース⼿法、eALS[3] • 結果 提案⼿法が最も⾼い性能を⽰した 実験 26 [3] He, et al. “Fast Matrix Factorization for Online Recommendation with Implicit Feedback”. SIGIR 2016
  24. 実験結果: データ推薦 29 0 0.1 0.2 0.3 0.4 0.5 0.6

    0.7 0.8 提案⼿法 K近傍法 Rondom HR@K K=1, 3, 5 K=1, 3, 5 K=1, 3, 5 データ推薦タスクにおいて、提案⼿法が最も⾼い性能を⽰した