Share
ICLR'26論文の紹介
- ViTにおいて[CLS]とpatchは役割が異なるが同様に処理される - 学習時にLayerNormがそれらを暗黙的に分離していることを指摘 - [CLS]とpatchの処理を部分的に分けるアーキテクチャを提案 - Patch表現が改善し下流タスクの性能が向上