United 7 メッシ Paris 30 ラモス Real Madrid 4 サッカー選⼿に関する表形式データのペア 表形式データのペアを⼊⼒し、各ペアの類似度を出⼒ 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表マッチング モデル 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 年 ⼈⼝ 国 GDP 2017 1.2 ⽇本 4.9 2017 6.0 アメリカ 19.5 2022 6.4 アメリカ 23.0 サッカー選⼿に関する表形式データと 国の統計に関する表形式データのペア 類似度: 0.1 ⼊⼒ 出⼒ 各ペアの類似度 …
た表形式データの構造を考慮していない 表形式データの構造情報をBERTに⼊⼒する表検索と表マッチング の⼿法は提案されていない [1] Devlin et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”,arXiv:1810.04805 (2018). [2] Chen et al. “Table Search Using a Deep Contextualized Language Model” SIGIR 2020.
0.8 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 表検索 ⼿法 ⼊⼒ 出⼒ 表マッチング ⼿法 出⼒ ⼊⼒
⼊⼒ スペイン出⾝のサッカー選⼿ 表形式データとクエリのペア 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表形式データのペア 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 埋め込み モデル 表検索 ランキング モデル 表マッチング ランキング モデル 類似度: 0.8 出⼒ ⼊⼒ 提案⼿法の概要図
⼊⼒ スペイン出⾝のサッカー選⼿ 表形式データとクエリのペア 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表形式データのペア 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 埋め込み モデル 表検索 ランキング モデル 表マッチング ランキング モデル 類似度: 0.8 出⼒ ⼊⼒ 提案⼿法の概要図
⼊⼒ スペイン出⾝のサッカー選⼿ 表形式データとクエリのペア 名前 チーム 国 メッシ Paris アルゼンチン ロナウド Manchester United ポルトガル ラモス Real Madrid スペイン 表形式データのペア 選⼿ チーム 番号 ロナウド Manchester United 7 メッシ Paris 30 ラモス Real Madrid 4 名前 チーム 国 ポジション メッシ Paris 30 フォワード ロナウド Manchester United 7 フォワード ラモス Real Madrid 4 ディフェンス 埋め込み モデル 表検索 ランキング モデル 表マッチング ランキング モデル 類似度: 0.8 出⼒ ⼊⼒ 提案⼿法の概要図
‒ ⽐較対象: TabSim[4]、TaBERT[3] • 表検索タスク ‒ クエリと表形式データを⼊⼒し、適合度を予測するタスク ‒ データセット: WikiTables ‒ 評価指標: nDCG、MRR、MAP ‒ ⽐較対象: TaBERT[3]、BERT-Row-Max[5]、DSRMM[6] 実験 12 実験の結果、提案⼿法が最も⾼い性能を⽰した [4] Habibi, et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”. Big Data 2020. [5] Chem, et al. “Table Search Using a Deep Contextualized Language Model”. SIGIR 2020. [6] Trabelsi, et al. “A Hybrid Deep Model for Learning to Rank Data Tables”. Big Data 2020.
0.9 提案⼿法 TaBERT[1] TabSim[2] ベースライン⼿法 提案⼿法 (CNN) 表マッチングタスクにおいて、提案⼿法が最も⾼い性能を⽰した F値 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [2] Habibi et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”, Big Data 2020. Tfidf Embedding Tfidf & Embedding
15 nDCG@5 提案⼿法 提案⼿法 (coarse) 提案⼿法 (fine) BERT-Row -Max[3] TaBERT[1] DSRMM[4] BM25 キーワード表検索タスクにおいて、提案⼿法が最も⾼い性能を⽰した ベースライン⼿法 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [3] Chen et al. “Table Search Using a Deep Contextualized Language Model”, SIGIR 2020. [4] Trabelsi et al. “A Hybrid Deep Model for Learning to Rank Data Tables. ”, Big Data 2020.
0.6 0.65 提案⼿法 TaBERT[1] TabSim[2] 提案⼿法 (CNN) DSRMM[4] BM25 コンテンツベース表検索タスクにおいて、提案⼿法が最も⾼い性能を⽰した nDCG@5 ベースライン⼿法 [1] Yin et al. “TABERT: Pretraining for Joint Understanding of Textual and Tabular Data”, ACL 2020. [2] Habibi et al. “TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity”, Big Data 2020. [4] [4] Trabelsi et al. “A Hybrid Deep Model for Learning to Rank Data Tables. ”, Big Data 2020.