çXLNet ⼊⼒系列の順番はそのままで,トークンの予測順序を⼊れ替え(Permutation) 20タスクでBERTを超え,18タスクでSOTAを達成 簡略化したイメージ図(実際はTwo-stream attentionなどのテクニックが組み込まれるのでもっと複雑) 39 全ての可能な予測順序を考慮することで双⽅向の⽂脈を組み込める Zhilin Yang, et al. “Xlnet: Generalized autoregressive pretraining for language understanding.” NeurIPS2019, slide p.7を参考に具体例で書き直したもの Zhilin Yang, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." NeurIPS2019. (⼊⼒系列)New, York, is, a, city (予測順序)4à2à1à3à0 (city, is, York, a, New) à J⾃⼰回帰モデルとBERTの良いところどりをしたモデル