Transformers) o 双⽅向 (bi-directional) transformer • Pros o 同時に複数時刻 (単語) の計算ができる o ⾮再帰・attention だけなので構造がシンプル o (広い視野で) 双⽅向の情報を⾒れる 2020.10.31 IRReading2020秋 5 RNN (LSTM も RNN の⼀種) encode: x1 à x2 à x3 à decode: y1 à y2 à y3 transformer 全 Ei 同時に計算 BERT
学習データ追加 • カタログスペック で⼀番強い? IRReading2020秋 BERT RoBERTa XLNet ALBERT レベルアップ 上位職に クラスチェンジ 別系統の職に クラスチェンジ • MLM 廃⽌ o マスクは⼈⼯ノイズ • ただし双⽅向情報は⾒たい o Permutation language model • TransformerXL + PLM • ALBERT (A Little BERT) • BERT はパラメータ数多い o 語彙 V (30,000) × 隠れ層の次元 H (768) • V を低次元 E (128) に埋め込み • 精度落とさずにパラメータ数 95% 削減
と D 別々に埋め込み o naïve な DNN を使⽤ • ⽂脈情報を有効に使えていない o D の埋め込みはオフラインで 計算可能 • Query-Document Interaction o Q と D 全単語ペアを考慮 o ⻑期依存や Q 内・D 内⽂脈情報 を⾒れていない o 単語ペアの計算部分はオフラインで 計算可能 2020.10.31 IRReading2020秋 9 BoW モデルと遜⾊ない程度の クエリ処理速度