シン・CNN vs. ViT

CVPR 2024 読み会シン・CNN vs. ViT 牛久祥孝 losnuevetoros

2013.6～2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4～2016.3 NTT CS研研究員
2016.4～2018.9 東京大学講師 (原田牛久研究室) 2016.9～2018.9 産業技術総合研究所協力研究員 2016.12～2018.9 国立国語研究所共同研究員 2018.10～2024.3 オムロンサイニックエックス株式会社 Principal Investigator 2019.1～株式会社 Ridge-i Chief Research Officer 2020.4～2023.3 津田塾大学非常勤講師 2021.7～東北大学非常勤講師 2022.1～合同会社ナインブルズ代表 2023.12～理化学研究所客員主管研究員 2024.4～オムロンサイニックエックス株式会社 VP for Research [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成動画の特定区間とキャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station. 自己紹介

自己紹介（その他）主な学術団体活動 ACM・IEEE・電子情報通信学会・情報処理学会・人工知能学会・応用物理学会一般会員コンピュータビジョン勉強会＠関東幹事日本ロボット学会代議員日本ディープラーニング協会有識者会員
共立出版コンピュータビジョン最前線編集科学技術振興機構（JST） CRDS 分野別委員会委員さきがけアドバイザー BOOST アドバイザー産業技術総合研究所覚醒プロジェクトプロジェクトマネージャー AIロボット駆動科学イニシアティブ設立準備事務局主な研究プロジェクト 2022-2025 人と融和して知の創造・越境をするAIロボット JST Moonshot（PM:牛久祥孝） 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業（代表:長藤圭介） 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I（代表:牛久祥孝） 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)（代表:内田誠一）

今日読む論文 TransformerとConvNeXt（など）を比較した論文 Best Student Paper Honorable Mention

ConvNeXt？

2020年代のConvNet = ConvNeXt • ResNetを拡張したConvNeXt モダンな – データ拡張 – Depth-wise
conv – 活性化関数 – 正規化 etc. • Swin-Transformerを超えるよ！ [Liu+, CVPR 2022]

どうやって比較した？ ×画像単体での比較 ✓データ全体に対する統計的アプローチ 1. サブ説明カウント 2. クロス試験 AI手法その1 全体的に見てタイ猫だと思った
AI手法その2 この手だけでタイ猫だと思ったここだけ見れば分かるよね？・・・？

サブ説明カウント (Sub-Explanation Counting) • Minimal Sufficient Explanation (MSE) – 9割の尤度比を満たす最小パッチ集合
• ＝任意の部分集合が尤度比9割未満 • それ以外の画像は黒/ぼかし – ビームサーチで全て探索 • サブ説明カウント – MSEを親としてパッチを一つずつ削除（ぼかす） →子ノードへ – もし尤度比が5割以上なら上記を繰り返し、下回れば止める基準尤度を上回るノードの数を数える

合成性 (Compositionality) と選言性 (Disjunctivism) • 合成性の高い挙動（画像上側）：MSEのパッチが多く、削除しても尤度が高め • 選言性の高い挙動（画像下側）：パッチが少なく、尤度が元画像より高い

クロス試験 (Cross-Testing) • 挿入メトリック：あるパッチを挿入した時の尤度𝑓𝑐 の増分 • クロス試験 – 1つ目の深層学習モデル（Swin-T）から 2つ目の深層学習モデル（VGG-19）への
クロス試験の例☞ – 正規化された挿入メトリックの累積和をプロットしてAUC（曲線下面積）を計算 𝑡ステップ後の摂動画像即ち、かつ ※論文の式(2)は符号を間違っているので注意左からぼかし画像、元画像、顕著度マップ − 上位𝒕/𝑻のパッチのみを保持した[0, 1]の顕著度マップ

iGOS++ 領域を削除しながら重要領域を探すI-GOSを改善する可視化手法 iGOS++では削除だけでなく保存も行う＋平滑化項で連続領域を可視化皆さんよくご存じの勾配ベース可視化手法 • 特徴マップなので解像度が粗い • 勾配ベースはモデル予測と関係がない GradCAM [Selvaraju+,
ICCV 2017] ランダムなマスクで重要な領域を推定 • ランダムなので最重要領域とは限らない • マスクの最適化は非凸なので最適化も大変 RISE [Petsiuk+, CVPR 2021] 勾配ではなく累積勾配で重要領域を最適化 • 削除して最適化するだけなので最適解かは不明 • 重要な領域を細切れにしがち I-GOS [Qi+, AAAI 2020] [Khorram+, CHIL 2021]

実験設定 • 深層学習モデル – 古いCNN: VGG19, ResNet50 & 新しいCNN: ResNet50-C1/C2/D
– ConvNeXt: ConvNeXt-T – Transformer: Swin-T, Nest-T, DeiT-S, PiT-S – CNNから蒸留したTransformer: DeiT-S, PiT-S, LeViT-256 • データセット：ImageNetの検証データセット（最初の5000枚）

モデル別のMSEの数とそれぞれのサイズから見えた傾向 MSEの比較による結果 • MSEの数 – CNN, ConvNext, 蒸留Transformer > Transformer
• MSEのサイズ – Transformer > CNN, ConvNext, 蒸留Transformer MSE数が多くサイズが小さい＝選言的より少ないパッチで分類できるパターンが多くあるサイズが大きい＝合成的パッチが多少減っても正しく分類できるどちらも隠蔽や欠損には強いメカニズム

サブ説明の視覚的な例 • CNNと蒸留 Transformerは – サブ説明小さめ ⇒選言性が高い • ConvNeXtと Transformerは
– サブ説明大きめ ⇒合成性が高い • いずれも – 同じようなパッチのどれかを見ている

モデル別のサブ説明の数から見えた傾向サブ説明の比較による結果 • ConvNextやTransformer は特にサブ説明が多い＝最近の手法は合成的 – 他のCNNや蒸留Transformer の10倍 •
ConvNextは – CNN並みにMSEが多い – CNN並みにMSEが小さい – Transformer並みにサブ説明が多い ConvNeXtも CNNなのに？何が原因？

畳込みだとか注意機構だとかは関係なさそう ConvNeXtとSwin-Tをアブレーションしてみた • アブレーション項目 – CNNの畳込みカーネルやTransformerのウィンドウサイズ – 正規化としてのレイヤー正規化、グループ正規化、バッチ正規化 • バッチ正則化
– ConvNeXtもTransformerもCNN並みのMSE数、サイズ、サブ説明数に（左） – バッチ正則化の時だけ、一部の特徴量次元のActivation Valueが大きい（右） – バッチ正則化は特徴量内で次元ごとにバラバラに値を変えることが原因か

クロス試験の定性的な例 Swin-Tと他とのクロス試験 Swin-Tと他とのクロス試験 VGG19と他とのクロス試験蒸留DeiTと他とのクロス試験モデルが
見ているパッチ (iGOS++) 元画像モデル毎事後確率

クロス試験の定性的な例 Swin-Tと他とのクロス試験 Swin-Tと他とのクロス試験 VGG19と他とのクロス試験蒸留DeiTと他とのクロス試験モデルが
見ているパッチ (iGOS++) 元画像モデル毎事後確率 ConvNeXtと他のとクロス試験の結果を用意しなくてよかったのか？

クロス試験の定量的な結果 • 挿入スコアに基づいてモデル同士の類似度を計算 • モデル同士の類似度からカーネルPCAでモデルをプロット ※iGOS++以外のScore-CAM[Wang+, CVPR 2020]でも傾向は同様 ConvNext, CNN,
Transformerはそれぞれクラスタが異なる蒸留するとCNNに近づく

モデルのクラスタ間の混同行列あれ、行列が非対称なの？古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer ※ 見やすさのため、論文図8の色を変更して使用

どうやって比較した？（再掲） ×画像単体での比較 ✓データ全体に対する統計的アプローチ 1. サブ説明カウント 2. クロス試験 AI手法その1 全体的に見てタイ猫だと思った
AI手法その2 この手だけでタイ猫だと思ったここだけ見れば分かるよね？・・・？

モデルのクラスタ間の混同行列あれ、行列が非対称なの？古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer CNN: 余裕 CNN:
ここだけ見れば分かるよね？ ConvNeXt: ここだけ見れば分かるよね？ ConvNeXt: 無理 ※ 見やすさのため、論文図8の色を変更して使用

モデルのクラスタ間の混同行列あれ、行列が非対称なの？古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer 古いCNNと蒸留Transformer これらが見ているパッチ
は他のモデルも見ている新しいCNNとConvNeXt、 Transformer 他のモデルが見てないパッチを見ている ⇒アンサンブルすると精度が上がった ※ 見やすさのため、論文図8の色を変更して使用

まとめ ConvNeXtやTransformerなどを比較した論文モデルのふるまいへの影響：正規化手法＞受容野のサイズやデータ増幅手法＞注意機構や畳込み今後の機械学習モデル開発でも使ってくれよな！！！

シン・CNN vs. ViT

シン・CNN vs. ViT

Yoshitaka Ushiku PRO

More Decks by Yoshitaka Ushiku

Featured

Transcript

CVPR 2024 読み会シン・CNN vs. ViT 牛久祥孝 losnuevetoros

2013.6～2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4～2016.3 NTT CS研研究員

今日読む論文 TransformerとConvNeXt（など）を比較した論文 Best Student Paper Honorable Mention

ConvNeXt？

2020年代のConvNet = ConvNeXt • ResNetを拡張したConvNeXt モダンな – データ拡張 – Depth-wise

どうやって比較した？ ×画像単体での比較 ✓データ全体に対する統計的アプローチ 1. サブ説明カウント 2. クロス試験 AI手法その1 全体的に見てタイ猫だと思った

サブ説明カウント (Sub-Explanation Counting) • Minimal Sufficient Explanation (MSE) – 9割の尤度比を満たす最小パッチ集合

合成性 (Compositionality) と選言性 (Disjunctivism) • 合成性の高い挙動（画像上側）：MSEのパッチが多く、削除しても尤度が高め • 選言性の高い挙動（画像下側）：パッチが少なく、尤度が元画像より高い

クロス試験 (Cross-Testing) • 挿入メトリック：あるパッチを挿入した時の尤度𝑓𝑐 の増分 • クロス試験 – 1つ目の深層学習モデル（Swin-T）から 2つ目の深層学習モデル（VGG-19）への

実験設定 • 深層学習モデル – 古いCNN: VGG19, ResNet50 & 新しいCNN: ResNet50-C1/C2/D

モデル別のMSEの数とそれぞれのサイズから見えた傾向 MSEの比較による結果 • MSEの数 – CNN, ConvNext, 蒸留Transformer > Transformer

サブ説明の視覚的な例 • CNNと蒸留 Transformerは – サブ説明小さめ ⇒選言性が高い • ConvNeXtと Transformerは

モデル別のサブ説明の数から見えた傾向サブ説明の比較による結果 • ConvNextやTransformer は特にサブ説明が多い＝最近の手法は合成的 – 他のCNNや蒸留Transformer の10倍 •

クロス試験の定性的な例 Swin-Tと他とのクロス試験 Swin-Tと他とのクロス試験 VGG19と他とのクロス試験蒸留DeiTと他とのクロス試験モデルが

クロス試験の定性的な例 Swin-Tと他とのクロス試験 Swin-Tと他とのクロス試験 VGG19と他とのクロス試験蒸留DeiTと他とのクロス試験モデルが

クロス試験の定量的な結果 • 挿入スコアに基づいてモデル同士の類似度を計算 • モデル同士の類似度からカーネルPCAでモデルをプロット ※iGOS++以外のScore-CAM[Wang+, CVPR 2020]でも傾向は同様 ConvNext, CNN,

モデルのクラスタ間の混同行列あれ、行列が非対称なの？古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer ※ 見やすさのため、論文図8の色を変更して使用

どうやって比較した？（再掲） ×画像単体での比較 ✓データ全体に対する統計的アプローチ 1. サブ説明カウント 2. クロス試験 AI手法その1 全体的に見てタイ猫だと思った

モデルのクラスタ間の混同行列あれ、行列が非対称なの？古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer CNN: 余裕 CNN:

モデルのクラスタ間の混同行列あれ、行列が非対称なの？古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer 古いCNNと蒸留Transformer これらが見ているパッチ

まとめ ConvNeXtやTransformerなどを比較した論文モデルのふるまいへの影響：正規化手法＞受容野のサイズやデータ増幅手法＞注意機構や畳込み今後の機械学習モデル開発でも使ってくれよな！！！