蒸留に追加データやラベルを必要とせず,先行研究である message passing機能を有するSCNNは順伝播に全体の 35%の時間を占めるのに対し,提案手法の推論時間はベー スモデルと同程度で精度の向上を達成.
ベーシックな蒸留は,教師モデルを用いて新たなモデルを 学習させるが,提案手法のSelf Attention Distillation(SAD) は,自分自身の深いレイヤーにおけるアテンションマップを 浅いレイヤーの蒸留ラベルに使用. したがって, 教師モデ ル等から得られる追加ラベルが必要なく, モデル自体も大 きくならない.
Lane Detectionにおける3つのベンチマーク(TuSimple, BDD100K, CULane)で実験を行い,先行研究との比較や SADに関するablation studyを行い有効性を検証.
SADを導入することで各レイヤーのアテンションマップが 良くなった. 細部にこだわるタスクにおいても有効かもしれ ない.