トランスフォーマーベースの⼿法の概要 • 前提 o Web 検索・テキスト検索を想定 o 情報検索と検索システムを同じ意図で利⽤ o 最近 (2021 年) の話はキャッチアップできておらず o 詳しく知り合い⼈は Pretrained Transformers for Text Ranking: BERT and Beyond がおすすめ o めちゃくちゃ固いです… 2021.8.28 Machine Learning 15minutes! Broadcast: 機械学習を⽤いた情報検索技術の⼊⾨と概要 3
• 代表的な応⽤:Web 検索システム/エンジン o 膨⼤な Web ページを全て確認することは不可 • 主要な検索システム o Google search, Microsoft Bing, Yahoo search, Baidu (百度) 2021.8.28 4 18.8億 Web サイト 55 億 Web ページ https://www.worldwidewebsize.com/ http://www.internetlivestats.com/tot al-number-of-websites/ Machine Learning 15minutes! Broadcast: 機械学習を⽤いた情報検索技術の⼊⾨と概要
pre-training を変えて改良 • RoBERTa (2019) o BERT の pre-training の枠組みのまま改良 • ELECTRA (ICLR2020) o BERT の MLM を敵対的学習する • ALBERT (ICLR 2020) o 軽量版 BERT (A Lite BERT) • T5 (2019) o Google AI が開発した転移学習フレームワーク o 論⽂⾒当たらず • GPT-3 (2020) o Open AI が開発した⾔語⽣成モデル o 1,750億個のパラメータを使⽤ (論⽂にアーキテクチャなし) 2021.1.28 3.6 Beyond BERT 20 BERT の後継モデル BERT の亜種 ELECTRA