論文紹介: "Webformer: Pre-training with Web Pages for Information Retrieval (SIGIR2022)"

欅惇志⼀橋⼤学ソーシャル・データサイエンス教育研究推進センター (SDS) [email protected] Webformer: Pre-training with
Web Pages for Information Retrieval (SIGIR2022) *33FBEJOHळ ※ 図表は論⽂中・Web からの引⽤

概要 • 貢献 o Web ページのテキストと構造情報の両⽅を使った事前学習⽅法 (Webformer) を提案 •
既存の事前学習の課題 o Web ⽂書をプレーンテキストとして扱う • 構造情報を使っていない • Web 検索では構造も⼤事な情報 (後で補⾜) o 512 トークンまでしか⼊⼒できない • ⼤規模⾔語モデルの仕様 • 512 トークンより⻑い⽂書は切り捨て/パッセージ分割 2022.11.12 IRReading2022秋 2 ※ トークン：頻出パターン (語やその⼀部分)

概要 • 貢献 o Web ページのテキストと構造情報の両⽅を使った事前学習⽅法 (Webformer) を提案 •
既存の事前学習の課題 o Web ⽂書をプレーンテキストとして扱う • 構造情報を使っていない • Web 検索では構造も⼤事な情報 (後で補⾜) o 512 トークンまでしか⼊⼒できない • ⼤規模⾔語モデルの仕様 • 512 トークンより⻑い⽂書は切り捨て/パッセージ分割 2022.11.12 IRReading2022秋 3 ※ トークン：頻出パターン (語やその⼀部分) ３つのパートに分かれる各パートの構造同じ

補⾜1: MLM • Masked language model (MLM): ⽳埋め問題 o ⼊⼒の⼀部のトークンをマスクする
• 元トークンを [MASK] というトークンで置き換える o 元トークンを予測する 2022.11.12 IRReading2022秋 4 https://www.sbert.net/examples/unsu pervised_learning/MLM/README.html

補⾜2: 構造化⽂書検索 • 構造化⽂書 o タグで構造化：HTML，XML etc. o 章⽴てで構造化：論⽂，書籍 etc.
• 構造化⽂書検索のモチベーション例 o タイトル中にクエリ語が出てくるのは重要 o <jewelry>Ruby と <skill>Ruby の価値は違う • 代表的な構造化⽂書検索⼿法：BM25F o F は field (タグのこと) を表す o BM25 の語の重み wterm にタグの重要度 wfield を乗算 2022.11.12 IRReading2022秋 5

補⾜3: DOM • Document Object Model (DOM) o 構造化⽂書を⽊構造に変換したもの o
要素 (内部) ノード：タグ o テキスト (葉ノード) ノード：テキスト 2022.11.12 6 https://www.tutorialstonight.com/js/js-dom-introduction 親⼦兄弟⼦先祖⼦孫

Webformer の構造：テキストエンコーダー 2022.11.12 IRReading2022秋 7 いわゆる普通のエンコーダーテキストノードのテキストを⼊⼒

Webformer の構造：ノードコーダー 2022.11.12 IRReading2022秋 8 要素ノード⽤エンコーダー [cls] とタグ (⾃⼰ +
⼦ノード) の埋め込みを⼊⼒

Webformer の構造：ノードコーダー 2022.11.12 IRReading2022秋 9 要素ノード⽤エンコーダー [cls] とタグ (⾃⼰ +
⼦ノード) の埋め込みを⼊⼒

ノードエンコーダーの事前学習 • Masked Node Prediction o MLM のタグ版 o タグの⼀部をマスク
• その他の事前学習 o 親⼦関係を予測 o 兄弟関係を予測 o 順序関係を予測 IRReading2022秋

実験結果 • ⽐較⼿法 o 古典モデル，初期深層学習モデル，事前学習モデル o 最先端の検索特化型トランスフォーマーモデルなし • 結果 o
性能改善 o 定性分析もたくさん

まとめ • 既存の事前学習の課題 o 構造情報を使っていない o 512 トークンより⻑い⽂書は切り捨て/ パッセージ分割 •
評価実験 o 既存の事前学習モデルよりも性能向上 • 所感 o 計算コスト⾼そう (事前学習なので許容?) 2022.11.12 IRReading2022秋 12 ◎ Webformer では構造情報利⽤ ◦ Webformer ではかなり改善 (512 トークン以上含むタグには⾮対応と読める)

論文紹介: "Webformer: Pre-training with Web Pages f...

論文紹介: "Webformer: Pre-training with Web Pages for Information Retrieval (SIGIR2022)"

keyakkie

More Decks by keyakkie

Other Decks in Science

Featured

Transcript

欅惇志⼀橋⼤学ソーシャル・データサイエンス教育研究推進センター (SDS) [email protected] Webformer: Pre-training with

概要 • 貢献 o Web ページのテキストと構造情報の両⽅を使った事前学習⽅法 (Webformer) を提案 •

概要 • 貢献 o Web ページのテキストと構造情報の両⽅を使った事前学習⽅法 (Webformer) を提案 •

補⾜1: MLM • Masked language model (MLM): ⽳埋め問題 o ⼊⼒の⼀部のトークンをマスクする

補⾜2: 構造化⽂書検索 • 構造化⽂書 o タグで構造化：HTML，XML etc. o 章⽴てで構造化：論⽂，書籍 etc.

補⾜3: DOM • Document Object Model (DOM) o 構造化⽂書を⽊構造に変換したもの o

Webformer の構造：テキストエンコーダー 2022.11.12 IRReading2022秋 7 いわゆる普通のエンコーダーテキストノードのテキストを⼊⼒

Webformer の構造：ノードコーダー 2022.11.12 IRReading2022秋 8 要素ノード⽤エンコーダー [cls] とタグ (⾃⼰ +

Webformer の構造：ノードコーダー 2022.11.12 IRReading2022秋 9 要素ノード⽤エンコーダー [cls] とタグ (⾃⼰ +

ノードエンコーダーの事前学習 • Masked Node Prediction o MLM のタグ版 o タグの⼀部をマスク

実験結果 • ⽐較⼿法 o 古典モデル，初期深層学習モデル，事前学習モデル o 最先端の検索特化型トランスフォーマーモデルなし • 結果 o

まとめ • 既存の事前学習の課題 o 構造情報を使っていない o 512 トークンより⻑い⽂書は切り捨て/ パッセージ分割 •