Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: "Webformer: Pre-training with Web Pages f...

keyakkie
November 12, 2022

論文紹介: "Webformer: Pre-training with Web Pages for Information Retrieval (SIGIR2022)"

IR Reading 2022 秋にて紹介した "Webformer: Pre-training with Web Pages for Information Retrieval(SIGIR2022)" の概要スライドです.Web ページのテキストと構造情報の両方を使った事前学習方法を提案した研究です.不適切な記述などがあればご指摘頂ければ幸いです .

keyakkie

November 12, 2022
Tweet

More Decks by keyakkie

Other Decks in Science

Transcript

  1. 欅 惇志 ⼀橋⼤学 ソーシャル・データサイエンス 教育研究推進センター (SDS) [email protected] Webformer: Pre-training with

    Web Pages for Information Retrieval (SIGIR2022) *33FBEJOHळ ※ 図表は論⽂中・Web からの引⽤
  2. 概要 • 貢献 o Web ページのテキストと構造情報の両⽅を 使った事前学習⽅法 (Webformer) を提案 •

    既存の事前学習の課題 o Web ⽂書をプレーンテキストとして扱う • 構造情報を使っていない • Web 検索では構造も⼤事な情報 (後で補⾜) o 512 トークンまでしか⼊⼒できない • ⼤規模⾔語モデルの仕様 • 512 トークンより⻑い⽂書は切り捨て/パッセージ 分割 2022.11.12 IRReading2022秋 2 ※ トークン:頻出パターン (語やその⼀部分)
  3. 概要 • 貢献 o Web ページのテキストと構造情報の両⽅を 使った事前学習⽅法 (Webformer) を提案 •

    既存の事前学習の課題 o Web ⽂書をプレーンテキストとして扱う • 構造情報を使っていない • Web 検索では構造も⼤事な情報 (後で補⾜) o 512 トークンまでしか⼊⼒できない • ⼤規模⾔語モデルの仕様 • 512 トークンより⻑い⽂書は切り捨て/パッセージ 分割 2022.11.12 IRReading2022秋 3 ※ トークン:頻出パターン (語やその⼀部分) 3つのパートに分かれる 各パートの構造同じ
  4. 補⾜1: MLM • Masked language model (MLM): ⽳埋め問題 o ⼊⼒の⼀部のトークンをマスクする

    • 元トークンを [MASK] というトークンで置き換える o 元トークンを予測する 2022.11.12 IRReading2022秋 4 https://www.sbert.net/examples/unsu pervised_learning/MLM/README.html
  5. 補⾜2: 構造化⽂書検索 • 構造化⽂書 o タグで構造化:HTML,XML etc. o 章⽴てで構造化:論⽂,書籍 etc.

    • 構造化⽂書検索のモチベーション例 o タイトル中にクエリ語が出てくるのは重要 o <jewelry>Ruby と <skill>Ruby の価値は違う • 代表的な構造化⽂書検索⼿法:BM25F o F は field (タグのこと) を表す o BM25 の語の重み wterm にタグの重要度 wfield を乗算 2022.11.12 IRReading2022秋 5
  6. 補⾜3: DOM • Document Object Model (DOM) o 構造化⽂書を⽊構造に変換したもの o

    要素 (内部) ノード:タグ o テキスト (葉ノード) ノード:テキスト 2022.11.12 6 https://www.tutorialstonight.com/js/js-dom-introduction 親 ⼦ 兄弟 ⼦ 先祖 ⼦孫
  7. ノードエンコーダーの事前学習 • Masked Node Prediction o MLM のタグ版 o タグの⼀部をマスク

    • その他の事前学習 o 親⼦関係を予測 o 兄弟関係を予測 o 順序関係を予測 IRReading2022秋
  8. まとめ • 既存の事前学習の課題 o 構造情報を使っていない o 512 トークンより⻑い⽂書は切り捨て/ パッセージ分割 •

    評価実験 o 既存の事前学習モデルよりも性能向上 • 所感 o 計算コスト⾼そう (事前学習なので許容?) 2022.11.12 IRReading2022秋 12 ◎ Webformer では構造情報利⽤ ◦ Webformer ではかなり改善 (512 トークン以上含むタグには⾮対応と読める)