Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Revisiting [CLS] and Patch Token Interaction in...

Avatar for yu4u yu4u
April 21, 2026

Revisiting [CLS] and Patch Token Interaction in Vision Transformers

ICLR'26論文の紹介

- ViTにおいて[CLS]とpatchは役割が異なるが同様に処理される
- 学習時にLayerNormがそれらを暗黙的に分離していることを指摘
- [CLS]とpatchの処理を部分的に分けるアーキテクチャを提案
- Patch表現が改善し下流タスクの性能が向上

Avatar for yu4u

yu4u

April 21, 2026

More Decks by yu4u

Other Decks in Technology

Transcript

  1. 3 ▪入力をパッチ分割し埋め込み、[CLS] tokenを付与しencoderに入力 ▪[CLS] tokenに対応する出力で分類 ViTにおける [CLS] token A. Dosovitskiy

    et al., "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale," in Proc. of ICLR'21. これ
  2. 5 ▪[CLS] token ▪ViT, DeiT, BEiT, CLIP, DINOシリーズ, MAE ▪GAP

    ▪Swin, PVT, CvT, PoolFormer ▪オリジナルの非階層型のViTは [CLS] token型 CNNのような階層型のViTのモデルはGAP型 ▪階層型のモデルで [CLS] tokenを使うのは面倒くさそうではある モデル学習時の [CLS] token vs. GAP