チャとして選んだ. • ImageNet 上で CNN を学習するには,[15, 31]の標準的なレシピに従う.初期学習 率を0.1に設定し,30番⽬,60番⽬,90番⽬のエポックで学習率を10倍に下げます. • Transformer • Vision Transformer (ViT) は,⾃然⾔語処理から Computer Vision へのトランス フォーマーの導⼊に成功し,いくつかのビジュアルベンチマークにおいて CNN と⽐ 較して優れた性能を達成しています. • 外部データなしで ImageNet 上で ViT の学習に成功した DeiT の学習レシピに従い, デフォルトの Transformer アーキテクチャとして DeiT-S (約 2,200 万個のパラメー タを持つ) を設定しました. • 具体的には,AdamW を⽤いて全ての Transform を学習し,初期学習率を 5e-4 に設 定し,cosine learning rate scheduler を⽤いて学習率を下げ,重み減衰の他に,3 つのデータ補強戦略 (RandAug,MixUp,CutMix) を採⽤して学習を正則化してい ます (そうしないと,DeiT-S はオーバーフィッティングにより ImageNetの 精度を 著しく低下させてしまいます). • トランスフォーマーは CNN より頑健と⾔われていたが,学習データや データ拡張など学習⽅法を揃えると,CNN は Transformer 並みの敵対的 攻撃に対する頑健性を獲得できる.しかし,ImageNet-A,-Cのような外 れ値のデータでは Transformer が強かった. [15] PriyaGoyal,PiotrDollár,RossGirshick,PieterNoordhuis,LukaszWesolowski,AapoKyrola,Andrew Tulloch, Yangqing Jia, and Kaiming He. Accurate, large minibatch sgd: Training imagenet in 1 hour. arXiv preprint arXiv:1706.02677, 2017. [31] Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, and Piotr Dollár. Designing network design spaces. In CVPR, 2020.