Revisiting [CLS] and Patch Token Interaction in Vision Transformers

AI Community 内田祐介 GOドライブ株式会社 Revisiting [CLS] and Patch Token
Interaction in Vision Transformers

2 ▪ViTにおいて[CLS]とpatchは役割が異なるが同様に処理される ▪学習時にLayerNormがそれらを暗黙的に分離していることを指摘 ▪[CLS]とpatchの処理を部分的に分けるアーキテクチャを提案 ▪Patch表現が改善し下流タスクの性能が向上サマリ A. Marouani et al.,
"Revisiting [CLS] and Patch Token Interaction in Vision Transformers," in Proc. of ICLR'26.

3 ▪入力をパッチ分割し埋め込み、[CLS] tokenを付与しencoderに入力 ▪[CLS] tokenに対応する出力で分類 ViTにおける [CLS] token A. Dosovitskiy
et al., "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale," in Proc. of ICLR'21. これ

4 ▪現論文ではオリジナルのTransformerに合わせ [CLS] tokenベースだがGAPとの比較も実施 ▪最適なLRが異なり、調整すれば同等の精度という結論 ViTにおける [CLS] token vs.
GAP A. Dosovitskiy et al., "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale," in Proc. of ICLR'21.

5 ▪[CLS] token ▪ViT, DeiT, BEiT, CLIP, DINOシリーズ, MAE ▪GAP
▪Swin, PVT, CvT, PoolFormer ▪オリジナルの非階層型のViTは [CLS] token型 CNNのような階層型のViTのモデルはGAP型 ▪階層型のモデルで [CLS] tokenを使うのは面倒くさそうではあるモデル学習時の [CLS] token vs. GAP

6 ▪Attention前のLayerNormで [CLS]-patch間の類似度が大幅に低下 ▪モデル内部で [CLS] とpatchが暗黙的に分離されている観測：[CLS] とpatchが分離されて処理されている DINOv2 ViT-L
での結果

7 レジスタありの場合、[CLS], レジスタ, patchは全て分離されているのか？他のモデルやレジスタありでも同様

8 ▪特定の次元が特定のトークンのみに利用される傾向（振幅が大きい） ▪そのようなベクトルを正規化することで結果的に分離される何故LayerNormで分離されるのか

9 ▪モデルは両者を内部で分離するために余計な表現能力を使っている ▪この問題を解決するため本論文は [CLS] とpatchをダイレクトに分離して処理する方法を提案提案手法

10 ▪自己教師あり学習（主にDINOv2）および教師あり学習（DeiT-III）を用いて、モデルの基盤となる表現学習をスクラッチから実施 ▪各ダウンストリームタスクは、バックボーンの重みを固定した Linear probing により学習・評価（画像分類、segmentation、depth推定）実験

11 ▪正規化レイヤの分離だけでも [CLS] - patchが分離されている ▪パラメータは0.05%増 ▪画像分類の精度が若干低下、seg、depthが改善 ▪分離することで [CLS] の大域情報が取りづらくなった？
正規化レイヤ (LayerNorm, LayerScale) を分離

12 ▪前半の 1/3 くらいを分離するのが良さそう分離するブロックの場所

13 ▪QKV proj. を特化させるのが最も効果的、MLP等は効果なし正規化レイヤに加え他のレイヤも分離（先頭1/3ブロック）

14 レジスタやattn. biasとの併用も有用

15 ▪正規化層とQKVの処理を [CLS] とpatchで分離して性能向上！ ▪もともと [CLS] vs. GAPに興味があった ▪Transformer内部でFFNとかだけ分離したモデルを作ったことも ▪本論文での実験は全てバックボーンをフリーズしたlinear
probing ▪Full finetuneするケースでも意味がある？ ▪そもそもGAPを使うモデルとの比較は？まとめ

16 ▪CaiTモデルで導入された残差ブロックの出力をスケーリングする機構 ▪Attentionブロック or FFNブロックの最後に挿入 ▪次元ごとにスケーリング、初期値小さめ ▪DINOv2やConvNeXtにも導入されている【参考】 LayerScale H.
Touvron et al., "Going Deeper With Image Transformers," in Proc. of ICCV'21.

17 ▪ViTはpatch tokenの一部を内部計算用のメモリとして利用 ▪その結果、patch の局所表現にアーティファクトが生じてしまうため、専用のregister tokenを追加して回避することを提案 ▪Attention mapにアーティファクトが減少し、クラス分類や dense
predictionタスクの性能が向上【参考】Vision Transformers Need Registers T. Darcet, et al., "Vision Transformers Need Registers," in Proc. of ICLR'24.

18 timmのDINOv2にはレジスタあり・なし両方のモデルがある 'vit_base_patch14_dinov2.lvd142m', 'vit_base_patch14_reg4_dinov2.lvd142m', 'vit_giant_patch14_dinov2.lvd142m', 'vit_giant_patch14_reg4_dinov2.lvd142m', 'vit_large_patch14_dinov2.lvd142m', 'vit_large_patch14_reg4_dinov2.lvd142m', 'vit_small_patch14_dinov2.lvd142m', 'vit_small_patch14_reg4_dinov2.lvd142m’
V3では名前にregは入っていないがレジスタ入り https://huggingface.co/timm/vit_large_patch16_dinov3.lvd1689m

19 ▪Activation等のoutlierの発生を防ぎつつ、文脈依存の調整を明示的に行うために attention biasを導入 ▪Attention bias：各attentionレイヤの各headごとに追加される入力非依存のlearnableなkey, valueスロット【参考】
Attention Bias Y. An, et al., "Systematic Outliers in Large Language Models," in Proc. of ICLR'25.

Revisiting [CLS] and Patch Token Interaction in...

Revisiting [CLS] and Patch Token Interaction in Vision Transformers

yu4u

More Decks by yu4u

Other Decks in Technology

Featured

Transcript

AI Community 内田祐介 GOドライブ株式会社 Revisiting [CLS] and Patch Token

3 ▪入力をパッチ分割し埋め込み、[CLS] tokenを付与しencoderに入力 ▪[CLS] tokenに対応する出力で分類 ViTにおける [CLS] token A. Dosovitskiy

4 ▪現論文ではオリジナルのTransformerに合わせ [CLS] tokenベースだがGAPとの比較も実施 ▪最適なLRが異なり、調整すれば同等の精度という結論 ViTにおける [CLS] token vs.

5 ▪[CLS] token ▪ViT, DeiT, BEiT, CLIP, DINOシリーズ, MAE ▪GAP

6 ▪Attention前のLayerNormで [CLS]-patch間の類似度が大幅に低下 ▪モデル内部で [CLS] とpatchが暗黙的に分離されている観測：[CLS] とpatchが分離されて処理されている DINOv2 ViT-L

7 レジスタありの場合、[CLS], レジスタ, patchは全て分離されているのか？他のモデルやレジスタありでも同様

8 ▪特定の次元が特定のトークンのみに利用される傾向（振幅が大きい） ▪そのようなベクトルを正規化することで結果的に分離される何故LayerNormで分離されるのか

9 ▪モデルは両者を内部で分離するために余計な表現能力を使っている ▪この問題を解決するため本論文は [CLS] とpatchをダイレクトに分離して処理する方法を提案提案手法

11 ▪正規化レイヤの分離だけでも [CLS] - patchが分離されている ▪パラメータは0.05%増 ▪画像分類の精度が若干低下、seg、depthが改善 ▪分離することで [CLS] の大域情報が取りづらくなった？

12 ▪前半の 1/3 くらいを分離するのが良さそう分離するブロックの場所

13 ▪QKV proj. を特化させるのが最も効果的、MLP等は効果なし正規化レイヤに加え他のレイヤも分離（先頭1/3ブロック）

14 レジスタやattn. biasとの併用も有用

15 ▪正規化層とQKVの処理を [CLS] とpatchで分離して性能向上！ ▪もともと [CLS] vs. GAPに興味があった ▪Transformer内部でFFNとかだけ分離したモデルを作ったことも ▪本論文での実験は全てバックボーンをフリーズしたlinear

16 ▪CaiTモデルで導入された残差ブロックの出力をスケーリングする機構 ▪Attentionブロック or FFNブロックの最後に挿入 ▪次元ごとにスケーリング、初期値小さめ ▪DINOv2やConvNeXtにも導入されている【参考】 LayerScale H.

19 ▪Activation等のoutlierの発生を防ぎつつ、文脈依存の調整を明示的に行うために attention biasを導入 ▪Attention bias：各attentionレイヤの各headごとに追加される入力非依存のlearnableなkey, valueスロット【参考】