Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Transformer 動向調査 2021 in 画像認識

kuzma
November 09, 2022

Transformer 動向調査 2021 in 画像認識

社内勉強会で発表した画像認識におけるTransformerの研究動向についてまとめた資料です。社のサイト(https://tech-ai.panasonic.com/jp/)にて、ブログ版(https://tech-ai.panasonic.com/jp/blog_page.html?id=20211022)も公開しています

kuzma

November 09, 2022
Tweet

More Decks by kuzma

Other Decks in Technology

Transcript

  1. T r a n s f o r m e

    r 動 向 調 査 i n 画 像 認 識 パ ナ ソ ニ ッ ク 株 式 会 社 C N S 社 イ ノ ベ ー シ ョ ン セ ン タ ー 前 野 一 樹
  2. T r a n s f o r m e

    r ( V i T ) 、 襲 来 3 ©Panasonic Corporation 2021
  3. V i T 、 I m a g e N

    e t で 最 高 性 能 を 叩 き 出 す 4 Vision Transformer(ViT≒クソでかプライベートデータで殴っただけのTransformer)がCNN超え ※ CNN系のTop性能もImageNet以外の大規模データを使ってるのでそこの差が全てではない 参考文献: [1] [2] 画像は[2]より引用(原典は[1]) 画像は[2]より引用(認識性能の値は[39][40][41]より) Noisy Studentのプロットは86.8%でarxiv初稿のTable 9の値 最新だと88.4%(EfficientNet-L2) Transferと言いつつResNet ImageNetで学習したら85.7% やってることは以下のような感じで、画像向けにすごい工夫した感じはしない ・ 画像をパッチに分割して(ピクセル値のベクトルとして)入力 ・ 活性化関数としてGELUを採用 ・ Normの位置がMLP・MHAより前 CNNの方はアーキというより学習方法的な部分が変わってた感じ ・ Noisy Student: 学習⇒未ラベルデータにラベル付与+ノイズを強くして学習xN ・ Big Transfer: ViTと同じでかいデータで幅4倍とかしたでかいResNetを学習 ・ Fix EfficientNet: 前処理の画像切出の差が学習とテストで影響しないよう調整 ⇒ がっつりアーキ変えて最高性能は結構な衝撃 ©Panasonic Corporation 2021
  4. C L I P に よ る Z e r

    o - S h o t 認 識 ( 1 / 2 ) 5 CLIP: 言語と画像のペアで事前学習 → Zero-Shotでの画像認識を実現 ※ Zero-Shot認識: 特定データに特化した学習を行わなくても推論出来ちゃうとんでも技術 従来はhuman/dog/cat (cute/cool/scary)の3クラス分類問題を学習しないといけなかったが、 Zero-Shotでは、この分類問題の学習は不要 入力 候補ラベル a human a dog a cat 関連性 0.0957 0.01057 0.8936 候補ラベル cute cool scary 関連性 0.9546 0.02176 0.0239 出力(※候補ラベルも入力) 参考文献: [8] [9] 画像は[9]より引用 数値は[9]より引用 数値は[9]より引用 CLIP 同じ画像に対して違うラベルを与えても正しい(ただしそうな)結果が返ってくる ラベルを↑の2つの例のように自由に与えられ、ラベルについて学習しなくて良い ©Panasonic Corporation 2021
  5. C L I P に よ る Z e r

    o - S h o t 認 識 ( 2 / 2 ) 6 CLIPはText Enc.とImage Enc.で構成. 各Enc.の出力間の類似度が適切になるよう学習している このEnc.のNW構造としてどちらもTransformerが採用されている(画像はViT) 画像は[9]より引用 画像は[8-1]より引用 参考文献: [8] [9] 認識したいラベルを与える “~(ラベル)の写真” の形に整形 各ラベルをベクトルに 認識したい画像を与える 画像をベクトルに 画像とラベルの ベクトル間類似度が 適切になるよう学習 画像とラベルの変換要モデル読込 入力を与え処理しやすい形に整形 画像とラベルのベクトル計算=Enc. 画像とラベルのベクトル間類似度計算 ©Panasonic Corporation 2021
  6. C L I P V i T v s R

    e s N e t 7 ImageNetで学習したResNetと比較すると、分布外シフトに対してCLIPのViTがかなり強い ただし、NWの良しあしの問題なのか、学習データ量の問題なのかは不明 論文内ではNWの違いだけが判る実験もしてたかも CLIPは4億組の画像テキストペア(ResNetの方はImageNet 1K(0.013億) or 21K(0.148億)) そもそもImageNet Adversarialとかは苦手なもの集められてるので不利と言えば不利な気も… 画像は[8-1]より引用 画像は[8-1]より引用 参考文献: [8] データセット ResNet性能 ViT性能 アートっぽいやつで構成されたImageNet 回転してたり、視点が様々だったり実世界っぽいデータセット (データ構築者の)ResNetで 認識に失敗したやつだけ集めたImageNet ©Panasonic Corporation 2021
  7. ©Panasonic Corporation 2021 C L I P の 応 用

    ( 1 / 2 ) 8 テキストからの画像生成(CogView, DALL-E等)はかなりそれっぽい画像を出してくれるように DALL-Eの例のように、実世界の画像で実在しないようなものもそれっぽく生成されている # CogViewデモ(https://wudao.aminer.cn/CogView/index.html)、DALL-E(DALL・E mini,小規模モデル)デモ(https://huggingface.co/spaces/flax-community/dalle-mini) # DALL・E miniのデモは、DALL-Eとは全然違うなという印象 “an illustration of a baby daikon radish in a tutu walking a dog”の生成結果 (DALL-E) 色んなテキストでの生成結果 (CogView) 参考文献: [3][4] “チュチュを着た赤ちゃん大根が犬を散歩してる”という、 恐らくネットの海にも存在しないであろう画像を生成している # “パジャマのピカチュウがバイクに乗ってる” # の例が削除されており掲載出来ないのが残念 “油彩のライオン”, “スケッチの家”等、 スタイル指定のようなものも可能っぽい “Cartoon”の有無で 生成画像のスタイルが変化 (右端上下比較) 画像は[3-2]より引用 画像は[4-1]より引用
  8. C L I P の 応 用 ( 2 /

    2 ) 9 高画質な画像生成とテキストでの画像操作の組合せもインパクトある感じに ↓のCLIP + StyleGAN, CLIP + VQGANの例に、 更に高解像度化(Real-ESRGAN)、多視点画像生成(3D photo inpainting)を組合せる使用例も # CLIP+VQGANのデモ(https://huggingface.co/spaces/akhaliq/VQGAN_CLIP) 各分野の技術の進歩が相乗効果でインパクトのある結果を出してきている “Young Barack Obama” (CLIP + StyleGAN) “studio ghibli trending on artstation | vray” (CLIP + VQGAN) 参考文献: [5][6][7][8][42][43] 画像は[8-5]より引用 画像は[8-6]より引用 ©Panasonic Corporation 2021
  9. 余 談 : U n r e a l E

    n g i n e T r i c k 10 “unreal engine”(3D制作エンジン)と付け足すと、リアリティのある画像が出るという謎テクも登場 AIのクセのようなものと上手く付き合う必要が出てくるかも?(脆弱性に繋がることもあるやも?) “a transformer rendered in unreal engine” (CLIP + VQGAN) “Trojan Horse. unreal engine" (CLIP + VQGAN) 参考文献: [6][8] 画像は[8-4]より引用 画像は[8-7]より引用 ©Panasonic Corporation 2021
  10. S t y l e C L I P 11

    GANでつくった画像の特徴とテキストの特徴が一致するようにGANを調整してる(はず) DALL-Eでは、生成された複数の画像がどれだけ入力文と近いかの順位付けという形で CLIPが利用されており、アイディア的には似ている 参考文献: [7][8] 画像は[7-2]より引用 CLIPによって、画像とテキストの類似度を求め、 その結果が高くなるように画像生成のパラメタを最適化する ©Panasonic Corporation 2021
  11. ( メ モ ) I m a g e S

    y n t h e s i s ( V Q G A N ) 12 Megapixelな画像生成にTransformerを利用 計算コストの高いEnc.Dec.でなく、ベクトル量子化(VQ)にTransformerを利用→ハイレゾいける! ※ VQ-VAEが分からんですが、VQはDALL-Eとかでも使われてるらしい 画像は[6-2]より引用 画像は[6-2]より引用 参考文献: [6] 量子化のためのコードブック生成にTransformerを活用 方式概要 生成画像例 ©Panasonic Corporation 2021
  12. 画 像 生 成 以 外 で も 13 Zero

    Shot Object Trackingとして、YOLO + CLIP + Deep SORTが登場 YOLOで物体みつけて、CLIPでその特徴を出して、Deep SORTでフレーム間対応付け という流れと思われる 画像は[44-2]より引用 ※gifなのでぜひアクセスしてみてください 参考文献: [44] 結果例 ©Panasonic Corporation 2021
  13. 本 章 の ま と め 14 ・ 画像の識別タスク(ImageNet)でTransformerを採用したViTが1位を獲得 ・

    ViTを活用したVision & Languageのモデルとして、 ゼロショット認識を実現したCLIPが登場 ・ CLIPを活用して - 言語からの画像生成(DALL-E, CogView) - 高品質な画像生成・画像操作(CLIP x StyleGAN・VQGAN) - ゼロショット物体追跡(CLIP x YOLO x DeepSORT) など、インパクトのある結果が次々と登場 ViT, CLIPともに超大規模データで学習されており、 それが別タスクでばかばか利用されだしていることから、 自然言語同様、汎用的なモデルの到来を予感させる状況になってきたことを感じる ©Panasonic Corporation 2021
  14. 参 考 文 献 ( 1 / 2 ) 15

    [1] An Image is Worth 16x16 Words Transformers for Image Recognition at Scale [1-1] https://arxiv.org/abs/2010.11929 [1-2] https://qiita.com/omiita/items/0049ade809c4817670d7 [1-3] https://speakerdeck.com/forest1988/an-image-is-worth-16x16-words-transformers-for-image-recognition-at-scale?slide=38 [2] SSII2021Transformer x Computer Visionの実活用可能性と展望 https://www.slideshare.net/SSII_Slides/ssii2021-ss1-transformer-x-computer-vision-transformercomputer-vision [3] CogView: Mastering Text-to-Image Generation via Transformers [3-1] https://arxiv.org/abs/2105.13290 [3-2] https://github.com/THUDM/CogView [3-3] https://twitter.com/hillbig/status/1399146803065344000?s=20 [4] Zero-Shot Text-to-Image Generation [4-1] https://openai.com/blog/dall-e/ [4-2] https://ai-scholar.tech/articles/deep-learning/dalle [4-3] http://cedro3.com/ai/dall-e/ [4-4] https://note.com/npaka/n/n6ee9b102db4b [5] A Style-Based Generator Architecture for Generative Adversarial Networks https://arxiv.org/abs/1812.04948 [6] Taming Transformers for High-Resolution Image Synthesis [6-1] https://arxiv.org/abs/2012.09841 [6-2] https://compvis.github.io/taming-transformers/ [6-3] https://twitter.com/icoxfog417/status/1339943249293713411?s=20 [7] StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [7-1] https://arxiv.org/abs/2103.17249 [7-2] http://cedro3.com/ai/styleclip-g/ [7-3] https://www.slideshare.net/DeepLearningJP2016/dlstyleclip-textdriven-manipulation-of-stylegan-imagery [7-4] https://ai-scholar.tech/articles/gan/text_gans [8] Learning Transferable Visual Models From Natural Language Supervision [8-1] https://openai.com/blog/clip/ [8-2] https://deepsquare.jp/2021/01/clip-openai/ [8-3] https://data-analytics.fun/2021/03/24/understanding-openai-clip/ [9] OpenAI CLIPの使い方 https://note.com/npaka/n/n74a9b172b41d [10] Transformerメタサーベイ https://www.slideshare.net/cvpaperchallenge/transformer-247407256 [11] Vision and Languageと分野を取り巻く深層学習手法の紹介 https://speakerdeck.com/sei88888/vision-and-languagetofen-ye-woqu-rijuan-kushen-ceng-xue-xi-shou-fa-falseshao-jie?slide=60 ©Panasonic Corporation 2021
  15. 参 考 文 献 ( 2 / 2 ) 16

    [39] Self-training with Noisy Student improves ImageNet classification https://arxiv.org/abs/1911.04252 [40] Big Transfer (BiT): General Visual Representation Learning https://arxiv.org/abs/1912.11370 [41] Fixing the train-test resolution discrepancy: FixEfficientNet https://arxiv.org/abs/2003.08237 [42] Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data https://github.com/xinntao/Real-ESRGAN [43] 3D Photography using Context-aware Layered Depth Inpainting https://shihmengli.github.io/3D-Photo-Inpainting/ [44] Roboflow Object Tracking [44-1] https://github.com/roboflow-ai/zero-shot-object-tracking [44-2] https://blog.roboflow.com/zero-shot-object-tracking/ ▪ Twitterで見つけた画像 [8-4] Trojan Horse. unreal engine https://twitter.com/arankomatsuzaki/status/1399839168839180289 [8-5] Young Barack Obama https://twitter.com/arankomatsuzaki/status/1400113353897353218?s=20 [8-6] studio ghibli trending on artstation | vray https://twitter.com/ak92501/status/1405412815062671360?s=20 [8-7] a transformer rendered in unreal engine https://twitter.com/mark_riedl/status/1401989845870792706?s=20 [8-8] CLIP Guided Diffusion + Real-ESRGAN https://twitter.com/ak92501/status/1427004151163142147?s=20 [8-9] VQGAN + CLIP + 3D photo inpainting https://twitter.com/ak92501/status/1412505934367236101?s=20 ©Panasonic Corporation 2021
  16. T r a n s f o r m e

    r 、 拡 散 17 ©Panasonic Corporation 2021
  17. C l a s s i f i c a

    t i o n 18 物体認識ではImageNetで90%超えを達成(ViTのよりでかいモデル&Optimizer改良) Re-IDは物体認識で性能良かった方式を持っていっただけでもさくっと改善した模様 TransReID (車や人物のRe-ID(=再照合)で改善) ViT(物体認識) 参考文献: [17][18] 画像は[17-1]より引用 画像は[18]より引用 90%超の性能を実現 ResNet50との 処理時間比 人物再照合の結果 同等処理時間で 性能改善 処理時間長い モデルで比較しても 改善 ©Panasonic Corporation 2021
  18. M o n o c u l a r D

    e p t h E s t i m a t i o n 19 エラー率?を改善. CNNと比べて、細部の奥行きをより詳細に推定可能で、 大きな均一領域でも頑張っている(と論文では記載) ※ DPTはリアルタイムで動くモデルもあるらしい… 参考文献: [12] 結果は[12-1]より引用 画像は[12-1]より引用 従来(CNN) エラー改善率 提案(Transformer) エラー改善率 ©Panasonic Corporation 2021
  19. S e g m e n t a t i

    o n , R e s t o r a t i o n 20 性能数値だけでなく、パラメタ効率、計算量効率でもCNNに対して優位な結果が出ている ※ 左上が望ましい:左ほど低(パラメタ数or計算量), 上ほど高性能 前頁のDPT同様細部を改善出来ている? ⇒ CNNだとConv.で潰れてしまう特徴が拾えている? SegFormer (Segmentation) UFormer (Restoration:ノイズ除去、ボケ復元等) 参考文献: [13][14] 画像は[13-1]より引用 画像は[14]より引用 Transformer系が 全体的に強い 細部を改善? 細部を改善? ©Panasonic Corporation 2021
  20. A c t i o n R e c o

    g n i t i o n 21 動画になったり、新しい複雑なタスクになっても活躍 コンペにおいては、Transformer + CNNのアンサンブルは定石になりつつある印象を受ける ※ ソースはCVPR 2021の別コンペ結果や、Kagglerのツイート.初手Transformerの声も一部あり ViViT (動画像分類) Home Action Genome (Scene-graph Generation, 人と物体の関係(行動)推定) 参考文献: [15][16] 画像は[15-1]より引用 画像は[16-3]より引用 画像は[16-5]より引用 Transforme系が良好 JFT=ViTで出てきたくそでかプライベートデータ アーキよりデータのインパクトが大きい?? Swin Transformer+ResNet アンサンブル ※単体でもSwin >= ResNet CVPR 2021で開催のコンペ結果 ©Panasonic Corporation 2021
  21. 本 章 の ま と め 22 Transformerのアーキテクチャを利用した手法が、 - 認識タスク:

    物体認識、(人、車の)再照合(Re-ID) - 奥行推定 - セグメンテーション - 高画質化 - 動画像認識 - 新タスク(Home Action Genome≒人と物体の関係(行動)推定) など様々なCVタスクで性能改善を実現 CNNに代わるアーキテクチャとして、Transformerへの期待が高まってきた ©Panasonic Corporation 2021
  22. 参 考 文 献 23 [12] Vision Transformers for Dense

    Prediction [12-1] https://arxiv.org/abs/2103.13413 [12-2] https://ai-scholar.tech/articles/others/dense_transformer [13] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers [13-1] https://arxiv.org/abs/2105.15203 [13-2] https://twitter.com/AkiraTOSEI/status/1400399360857305091?s=20 [14] Uformer: A General U-Shaped Transformer for Image Restoration https://arxiv.org/abs/2106.03106 [15] ViViT: A Video Vision Transformer [15-1] https://arxiv.org/abs/2103.15691 [15-2] https://cyberagent.ai/blog/research/14721/ [15-3] https://deideeplearning.com/2021/05/26/post-476/ [15-4] https://iaml-it.github.io/posts/2021-04-28-transformers-in-vision/ [16] Home Action Genome: Cooperative Compositional Action Understanding [16-1] https://arxiv.org/abs/2105.05226 [16-2] https://homeactiongenome.org/index.html [16-3] https://homeactiongenome.org/results.html [16-4] https://prtimes.jp/main/html/rd/p/000003982.000003442.html [16-5] https://news.panasonic.com/jp/press/data/2020/10/jn201015-1/jn201015-1.html [17] Scaling Vision Transformers [17-1] https://arxiv.org/abs/2106.04560 [17-2] https://twitter.com/hillbig/status/1402772065250287618?s=20 [17-3] https://twitter.com/neilhoulsby/status/1402517852754747393?s=20 [17-4] https://twitter.com/giffmana/status/1402488918331756550?s=20 [18] TransReID: Transformer-based Object Re-Identification https://arxiv.org/abs/2102.04378 [37] Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers [37-1] https://arxiv.org/abs/2012.15840 [37-2] https://kyla.co.jp/blog/2021/05/07/%E8%AB%96%E6%96%87%E7%B4%B9%E4%BB%8B%E3%80%8Erethinking-semantic-segmentation-from-a-sequence-to-sequence-perspective-with- transformers%E3%80%8F/ ©Panasonic Corporation 2021
  23. 問 題 と 対 策 i n 識 別 タ

    ス ク 24 ©Panasonic Corporation 2021
  24. 前 章 ま で で 期 待 が 高 ま

    っ て き た が 25 Transformer(ViT)にも問題はある 問題1. 学習データが大量になければ力が出ない 問題2. メモリ・計算量がでかい(というか効率がよろしくない) これらに対してどういった取組がなされているか、以降のスライドで紹介していく 学習データ規模(横軸) と性能(縦軸) BiTがCNN. ImageNetだとBiT>>ViT 21kでもBiT≒ViT 3億枚の非公開データでようやくViT>=BiTとなる ※ 円の大きさはパラメタ数 参考文献: [1][27][24] 画像は[1-1]より引用 画像は[27-1]より引用 画像は[24]より引用 解像度(横軸) とメモリ使用量(縦軸) ViTとだいたい同じDeiT(ピンク)と、ResNet(茶色)に注目 DeITは解像度が上がると、 ResNetに比べ、 すごい勢いでメモリが増加 画像1枚でこれなので、バッチサイズ考えると… 計算量(横軸) と性能(縦軸) Image Net 21kで学習した場合の結果 (なのでViTが弱いのは仕方ない部分もあり) 小さいEfficient Net v2(9GFLOPS)と、 でかいViT(200GFLOPS)で性能どっこい… 黄色がEfficientNet v2 朱色がViT ©Panasonic Corporation 2021
  25. 問 題 1 へ の 対 策 26 色々あるが、 -

    CNNを取り込む(CNNを蒸留に活用する, CNN-likeな構造にする(速度・メモリ対策で紹介)) - BERTっぽく事前学習 - Optimizerを変える - ハイパラチューニングする(参考文献[23]) - 数式に基づくフラクタル画像を利用する(参考文献[38]) などがある (みんな3億枚のプライベートデータとか持ってないから色々出てくるんだろうなと) ©Panasonic Corporation 2021
  26. C N N を 蒸 留 に 活 用 す

    る ( D e i T ) 27 それで良いのか?という気もするが、CNNから蒸留すると学習データ少なくてもCNN超えの性能に 画像は[19-4]より引用 画像は[19-4]より引用 参考文献: [19] 処理時間(横軸) と性能(縦軸) Image Net 1kで学習した場合の結果 青丸のViTを赤丸のDeiTがぶっちぎっている CNN(EfficientNet)に対しても優位 (処理時間はV100 GPUで計測) 蒸留のイメージ (処理時間はV100 GPUで計測) 蒸留トークンを入力に追加(こいつ自体学習する模様) RegNetをTeacherにした実験結果が論文には掲載 Teacherのモデルより良い性能になっている このtokenが肝 蒸留による損失 hard distillation の方が性能良い 画像は[19-5]より引用 くっつけて流すだけ 途中はViTと同じ 実装(の一部) hard distillationのため、 クラス推定2回やる ©Panasonic Corporation 2021
  27. B E R T っ ぽ く 事 前 学

    習 ( B E i T ) 28 マスクした部分の予測を行うタスクでImageNet 1Kを事前学習することで性能を改善 ※ 16台のV100で5日これをやったあとFine Tuningの学習が必要な模様 2021/7月時点で、ImageNet 21kを使った場合、同じ学習データ利用モデルで最高性能(88.6%) 参考文献: [20] 結果は[20-1]より引用 画像は[20-1]より引用 DALL-Eで使われる dVAE [M]はマスクされた部分(の特徴) 画像を量子化された 特徴で表現 マスクされた部分に 対応する 量子化特徴表現を 当てる DeiTと比べても改善 ©Panasonic Corporation 2021
  28. O p t i m i z e r を

    変 え る 29 ViTは局所最適に落ちやすい ⇒ SAMを使って回避 ※ SAM(Sharpness-Aware Minimization): 周辺が平坦なパラメタを探索するOptimizer SAMの式 近傍パラメタでの損失も考慮して、 そこでやたらでかい損失が出ないことを担保する (近傍で一番でかいやつとの差が小さいと〇というお気持ち) 参考文献: [21][22] 画像は[21-1]より引用 画像は[22-1]より引用 loss landscapesが 尖ってない loss landscapesが 尖ってる SAM使って、 loss landscapesが 尖らなくなった SAM使って、 性能が改善 同程度パラメタの ResNetとコンパラ L=損失 ©Panasonic Corporation 2021
  29. 問 題 2 へ の 対 策 30 色々あるが、 -

    CNN-likeな構造にする(分割処理する, 階層構造にする) - CNNと組合わせる - Attentionをもとに領域を絞る - 計算量がサイズに大きく依存にしないようにする(参考文献[27]) などがある CNN-like, CNNと組合わせるは紹介論文以外にもかなり沢山ある印象 (CNN-likeは、参考文献[2]を見ると参考になるかと) ©Panasonic Corporation 2021
  30. 分 割 処 理 す る & 階 層 構

    造 に す る ( N e s T ) 31 各部分領域に対しTransformerをかける、を階層的に行う 高速化効果に加えて、Augmentationが少なくてもある程度性能が出るように 参考文献: [26] 結果は[26-1]より引用 結果は[26-1]より引用 画像は[26-1]より引用 小領域でTransformer 中領域で 大領域で 重くならないよう Poolingで集約 CNNと同等 処理時間で 性能改善 Random ErasingなしのDeiTは性能が劇的低下 NesTだと、そこまで大きなインパクトはない CutMix/MixUpが比較的大きな影響だが、 DeiTほどではない ©Panasonic Corporation 2021
  31. C N N と 組 合 わ せ る (

    C o A t N e t ) 32 前半はDepth Wise Convして、後半はTransformerみたいなの Attention部分も、CNNのカーネルみたいな要素を入れたRelative-Attentionにしている Image Net 21Kを使えば88.56%出るのでプライベートデータありのViT並みの性能が出る 参考文献: [25] 画像は[25-1]より引用 結果は[25-1]より引用 画像は[25-1]より引用 DW Convの式 Self Attの式 Relative Attentionの式 AttentionをCNN-likeにしてる? 前半はConv 後半はTransformer ImageNet21k使えば、 JFTありViT(88.55%)と 並ぶ88.56%を獲得 赤線がCoAtNet 他のTransformerより 計算効率が高い ©Panasonic Corporation 2021
  32. A t t e n t i o n か

    ら 領 域 を 絞 る ( D y n a m i c V i T ) 33 トークンの特徴から有用かどうかを予測し、有用なものに絞って処理する 性能は多少犠牲になるが高速化効果が得られる 参考文献: [28] 画像は[28-1]より引用 結果は[28-1]より引用 結果は[28-1]より引用 特徴が有用かの推定器を↓とかで学習 ・ 間引き前後で特徴が一致するよう蒸留 ・ 目標削減率の達成度合いみたいな損失 トークン数が 計算量に当然影響 削れるほどコストカット 素の状態 提案手法でトークン数を7/10にすると、 FLOPsは40%弱カットでき、 スループットは50%改善@GPU 性能は0.5%ダウンで済む 入力解像度を下げる(384⇒320)より、 提案手法で削る方がバランス〇 ©Panasonic Corporation 2021
  33. 本 章 の ま と め 34 Transformerにも↓の問題がある ・ 問題1.

    学習データが大量になければ力が出ない ・ 問題2. メモリ・計算量がでかい(というか効率がよろしくない) 各々の問題への対応策として↓などがある ・ 解決策1. CNNを蒸留に活用, BERTっぽく事前学習, Optimizerを変える等 ・ 解決策2. CNN-likeな構造にする, CNNと組合わせる, Attentionをもとに領域を絞る 結果として、Image Net 1kの世界では、同程度の学習データで、 性能と速度のバランスが取れたTransformerベースな手法が出てきている ©Panasonic Corporation 2021
  34. 参 考 文 献 35 [19] Training data-efficient image transformers

    & distillation through attention [19-1] https://arxiv.org/abs/2012.12877 [19-2] https://deepsquare.jp/2021/01/deit/ [19-3] https://qiita.com/keiji_dl/items/a479babdeb3eff8b8883 [19-4] https://ai.facebook.com/blog/data-efficient-image-transformers-a-promising-new-technique-for-image-classification [19-5] https://github.com/facebookresearch/deit/blob/main/models.py [20] BEIT: BERT Pre-Training of Image Transformers [20-1] https://arxiv.org/abs/2106.08254 [20-2] https://twitter.com/hillbig/status/1405672954860503042?s=20 [20-3] https://twitter.com/dakuton/status/1405684998384930816?s=20 [21] When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations [21-1] https://arxiv.org/abs/2106.01548 [21-2] https://twitter.com/AkiraTOSEI/status/1402573690089263109?s=20 [22] Sharpness-Aware Minimization for Efficiently Improving Generalization [22-1] https://arxiv.org/abs/2010.01412 [22-2] https://qiita.com/omiita/items/f24e4f06ae89115d248e [23] How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers [23-1] https://arxiv.org/abs/2106.10270 [23-2] https://twitter.com/giffmana/status/1406816598216876037?s=20 [23-3] https://twitter.com/__kolesnikov__/status/1406918712058433540?s=20 [23-4] https://twitter.com/bkrish_/status/1406960037130432514?s=20 [24] Transformers in Vision https://iaml-it.github.io/posts/2021-04-28-transformers-in-vision/ [25] CoAtNet: Marrying Convolution and Attention for All Data Sizes [25-1] https://arxiv.org/abs/2106.04803 [25-2] https://andlukyane.com/blog/paper-review-coatnet [25-3] https://twitter.com/AndLukyane/status/1402999448255438856?s=20 [26] Aggregating Nested Transformers [26-1] https://arxiv.org/abs/2105.12723 [26-2] https://twitter.com/Maxwell_110/status/1402383685324738562?s=20 [26-3] https://medium.com/syncedreview/google-rutgers-aggregating-nested-transformers-yield-better-accuracy-data-efficiency-and-e332553e24a1 [27] XCiT: Cross-Covariance Image Transformers [27-1] https://arxiv.org/abs/2106.09681 [27-2] https://www.youtube.com/watch?v=g08NkNWmZTA ©Panasonic Corporation 2021
  35. 参 考 文 献 36 [28] DynamicViT: Efficient Vision Transformers

    with Dynamic Token Sparsification [28-1] https://arxiv.org/abs/2106.02034 [28-2] https://dynamicvit.ivg-research.xyz/ [28-3] https://github.com/raoyongming/DynamicViT [38] Can Vision Transformers Learn without Natural Images? [38-1] https://arxiv.org/abs/2103.13023 [38-2] https://hirokatsukataoka16.github.io/Vision-Transformers-without-Natural-Images/ ©Panasonic Corporation 2021
  36. C N N と ど こ が 違 う ?

    37 ©Panasonic Corporation 2021
  37. 人 間 の 知 覚 に 近 い ? 38

    ViTの方がCNNに比べて、人間に近い間違え方をしている Cohen‘s kappa: 間違えたサンプルの被り具合(多分) Jensen-Shannon (JS) 距離: エラーの確率分布間距離.小さいほど分布が似ている 参考文献: [29][46] 結果は[29-1]より引用 画像は[46-2]より引用 先行研究[46]は、CNNは形状よりテクスチャを重視していると主張 ・ 左端例: 人間は??となりそうだが、CNNは像だとわりと確信してこたえている ・ 右端例: 人間は多分猫とこたえる(少なくとも像とは言わない)が、CNNは像とこたえている では、ViTだとどうだろうか? ということと、人間の認識の傾向との比較を扱っている[29] 縦軸 上下反転 注意 ViT(黄色)が、 ResNet50等CNNと比べて 間違えたサンプルが 人間と似てる ViTが、クラスごとの認識の失敗しやすさが、 人間と似てる. クラス間をどう間違えているかは、 CNNの方が人間に似ている? ©Panasonic Corporation 2021
  38. 分 布 シ フ ト に ロ バ ス ト

    ? 39 スケッチのようなStyleシフトや、テクスチャのシフトが起きた際に、 Transformer(DeiT)の方がCNN(BiT)よりも性能変化が小さい 参考文献: [31] 結果は[31-1]より引用 画像は[31-1]より引用 画像は[31-1]より引用 F:特徴表現を得エンコーダモデル C: クラス分類の識別モデル 𝐷𝑖𝑖𝑑 : 独立同分布(iid)のデータ でValidationした性能 𝐷𝑜𝑜𝑑 : ドメイン外(ood)のデータ でValidationした性能 DeiT(Transformer)がBiT(CNN)より ドメイン間の性能Gapが小さい ⇒ Transformerは分布外シフトにロバストっぽい proxy A-distance(PAD)を測った結果 PAD: 2つのドメインを混ぜて学習したモデルでの、ドメイン分類エラー率で ドメインの類似度を測る方法(だと思う) 異なるPADのデータセットを色々(右結果横軸)作って、 そこで認識性能がどう変わるか(右結果縦軸のGap)を検証するという話だと思う ©Panasonic Corporation 2021
  39. 顔 認 証 で 比 べ る と ? 40

    同程度の速度で同程度の性能が得られている模様 隠蔽度が大きくなるにつれ性能差が広がることから、Transformer(ViT)は隠蔽に弱い模様 参考文献: [32] 結果は[32-1]より引用 結果は[32-1]より引用 隠蔽度合い(横軸) と性能(縦軸) 各データセットで、画像に隠蔽処理を加えて、 隠蔽度合に応じて性能がどう変化するかを評価している 実線:ResNet, 点線: ViT, 色: 評価データ 実線の方が、点線に比べて、性能の落ち幅が小さく、 隠蔽へのロバスト性はCNNが優位と思われる IJB-Cデータセットでの認識性能評価 (処理時間はV100 GPUで計測) ほぼViTまんまを使って、CNN(ResNet100)と同等速度&性能を獲得 ※ 最初の入力のパッチ分割でオーバラップを許容するとか、小さな変更が入っている 学習データの規模がImageNetより大きい(クラス数約94Kクラス、画像数約5.3M枚)なのと、 入力が正規化されてるあたりで、ImageNetと違った傾向にあるのかもしれない ©Panasonic Corporation 2021
  40. 本 章 の ま と め 41 TransformerとCNNの違いについての研究も出てきている これらの研究から、 ・

    人間の知覚との類似性、Out of Domainなデータへのロバスト性ではTransformer優位 ・ 隠蔽へのロバスト性ではCNN優位 ・ 敵対的サンプルへのロバスト性は同程度だが、苦手なサンプルの傾向は違う(参考文献[30]) といった違いが見られている ©Panasonic Corporation 2021
  41. 参 考 文 献 42 [29] Are Convolutional Neural Networks

    or Transformers more like human vision? [29-1] https://arxiv.org/abs/2105.07197 [29-2] https://ai-scholar.tech/articles/transformer/human_vision [30] Understanding Robustness of Transformers for Image Classification [30-1] https://arxiv.org/abs/2103.14586 [30-2] https://twitter.com/AkiraTOSEI/status/1402936077342498816?s=20 [30-3] https://twitter.com/Maxwell_110/status/1401658909442543617?s=20 [31] Delving Deep into the Generalization of Vision Transformers under Distribution Shifts [31-1] https://arxiv.org/abs/2106.07617 [31-2] https://github.com/Phoenix1153/ViT_OOD_generalization [32] Face Transformer for Recognition [32-1] https://arxiv.org/abs/2103.14803 [32-2] https://github.com/zhongyy/Face-Transformer [46] ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness [46-1] https://arxiv.org/abs/1811.12231 [46-2] https://github.com/rgeirhos/texture-vs-shape [46-3] https://qiita.com/f0o0o/items/eb1e86d11318aeb54109 ©Panasonic Corporation 2021
  42. ま と め と 所 感 43 ▪ まとめ ・

    パンチのある結果が出て、Transformerブームが到来 識別タスク以外でも、様々なタスクでTransformerが成果を上げている ・ 識別タスクでは①大規模データが必要、②計算コストが高い、の2点が主要な問題 画像のドメイン特性を活用するものや、自然言語処理の知見を入れ込むもの、 など様々なアプローチが取られている(ため論文数がえぐい勢いで増えている) ・ TransformerとCNNの違いも分析されつつある どうも出力の傾向が違うようなので、アンサンブルさせると良さそうな雰囲気 (コンペ in CVPR2021の上位解法では実際にアンサンブルが採用されている) ▪ 所感 識別タスクにおいては、CNNがTransformerに取って代わられるところまでは来ていない印象 とはいえ、紹介した様々な手法に加え、TransformerのNAS[47]や、AttentionとConvを候補に入 れたNAS[48]なんかも出ており、Transformerの成長は止まらなさそう。 大変だがなんとか頑張って追いかけていきたい ©Panasonic Corporation 2021
  43. ( お ま け ) 最 高 性 能 モ

    デ ル 達 と 計 算 リ ソ ー ス 44 最高性能を叩きだしているのは、ほぼGoogleのみ (CNN含め) 90%超のモデルは、1枚のTPUv3だと、10K日≒27年以上学習にかかる 非Google モデルも32GBのV100のため、ImageNet最高性能を再現するのは骨が折れそう モデル 著者所属 ImageNet 学習データ 学習時間 ViT[1] Google Research, Brain Team 88.55% JFT 300M 2.5k TPUv3 days ViT(Scaling ViT)[17] Google Research, Brain Team 90.45% JFT 300M 10K > TPUv3 days V-MoE[33] Google Brain 90.35% JFT 300M 16.8k TPUv3 days EffNet + MPL[45] Google AI, Brain Team 90.2% JFT 300M 22.5K TPUv3 days EffNet v2[34] Google Research, Brain Team 85.7% 87.3% ImageNet 1K ImageNet 21K 32+α TPUv3 days 64+α TPUv3 days 以下、非Googleの手法で高性能なTransformer(&CNN) LV-ViT[35] ByteDance 86.4% ImageNet 1K 24+α V100 days BEiT[20] Microsoft Research 86.3% Image Net 1K 80+α V100 days T-ResNet-RS[36] Facebook AI Research 84.5% Image Net 1K 33+α V100 days 参考文献: [1][17][20][33][34][35][36][45] ©Panasonic Corporation 2021
  44. 参 考 文 献 45 [33] Scaling Vision with Sparse

    Mixture of Experts [33-1] https://arxiv.org/abs/2106.05974 [33-2] https://twitter.com/joapuipe/status/1404346212116017153?s=20 [34] EfficientNetV2: Smaller Models and Faster Training [34-1] https://arxiv.org/abs/2104.00298 [34-2] https://qiita.com/omiita/items/1d96eae2b15e49235110 [35] All Tokens Matter: Token Labeling for Training Better Vision Transformers https://arxiv.org/abs/2104.10858 [36] Transformed CNNs: recasting pre-trained convolutional layers with self-attention https://arxiv.org/abs/2106.05795 [45] Meta Pseudo Labels [45-1] https://arxiv.org/abs/2003.10580 [45-2] https://qiita.com/takoroy/items/08ce473d304b8f987c32 [47] Vision Transformer Architecture Search [47-1] https://arxiv.org/abs/2106.13700 [47-2] https://github.com/xiusu/ViTAS [48] BossNAS: Exploring Hybrid CNN-transformers with Block-wisely Self-supervised Neural Architecture Search [48-1] https://arxiv.org/abs/2103.12424 [48-2] https://github.com/changlin31/BossNAS ©Panasonic Corporation 2021