Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Paper Summary (DL-paper)] Approximating CNNs with Bag-of-Local-Features models works surprisingly well on ImageNet

tanimutomo
July 12, 2019
50

[Paper Summary (DL-paper)] Approximating CNNs with Bag-of-Local-Features models works surprisingly well on ImageNet

[DL-paper] ICLR2019論文.BoFとDNNを組み合わせることで解釈性の高いDNNモデル,BagNetsを提案.BagNetsを利用したDNNsにおけるモデルの分析を行った.論文(https://openreview.net/forum?id=SkfMWhAqYQ) , Code (https://github.com/wielandbrendel/bag-of-local-features-models)

tanimutomo

July 12, 2019
Tweet

Transcript

  1. http://deeplearning.jp/ Approximating CNNs with Bag-of-local-Features models works surprisingly well on

    ImageNet 2019/07/12 Tomoki Tanimura, B4, Jin Nakazawa Lab, Keio University
  2. 書誌情報 § ICLR2019 § 著者: Wieland Brendel and Matthias Bethge

    § 所属: Eberhard Karls University of Tubingen, Germany § Bethge Lab: http://bethgelab.org/ § 同じくICLR2019に投稿されたBethge Labからの論⽂
  3. 概要 § BagNetを提案 § 画像の局所的な特徴に基づいて画像分類を⾏う § Bag-of-Features + DNN §

    予測精度を⾼いまま保ちつつ,結果の解釈が容易に⾏える § 既存のSoTA DNN達 § BoF ベースの古典的⼿法 vs DNN -> 精度的にはDNNの圧勝 § 獲得している特徴量や分類の仕⽅はBoFベースの⼿法と変わらない § 局所的な特徴をベースとして判断していることを実験的に⽰した
  4. BoF (Bag-of-Features) § 画像の局所特徴量(SIFTやSURF等)を基にした特徴ベクトル § 画像データセットから特徴ベクトルを抽出 § 特徴ベクトルをクラスタリング § クラスタ中⼼をVisual

    wordsとして定義 § 分類対象の画像Aから特徴ベクトルを抽出 § 特徴ベクトルをVisual wordsに対応づけ § Visual wordsの出現頻度が画像AのBoF
  5. BagNets § BoFの局所特徴量に基づく分類とDNNを組み合わせた § BagNetsの構造 § 画像をq x qのパッチに分割 §

    各パッチからResBlockベースのモデルで 特徴ベクトルを抽出 § 特徴ベクトルを線形分類器でクラス分類 § 全パッチにおけるクラスの予測結果を合計 § もっとも多いクラス => 画像のクラス § 画像パッチごとの寄与を⾒れる § 解釈可能性の向上
  6. Accuracy & Runtime § 精度⽐較 § 17 x 17 pixels

    patch : 80.5% - AlexNetと同等 § 33 x 33 pixels patch : 87.6% - VGG-16に匹敵 § 実⾏速度⽐較 § 画像サイズ : 224 x 224 x 3 § BagNets : 155 images/s § ResNet-50 : 570 images/s Patch size
  7. Activation mapの相関関係 § VGGとBagNetsのactivationの相関関係 § 当然ながらPatch sizeと相関は⽐例 § 33 x

    33 pixelで0.88 § VGGとBagNetsは同じような画像特徴に 対して反応している
  8. パッチシャッフルによる影響 § 画像のパッチをシャッフルした時の精度への影響 § パッチシャッフル § BagNetsの予測において,パッチシャッフルは影響なし § DNNsでは影響がるが,Gram Matrixを利⽤したtexture

    synthesis (Style loss)はパッチシャッフルに近い § Style LossによるTexture synthesis § 右の画像 § オブジェクトの形状がわからないような画像 § ⼈間は分類困難,VGGは分類可能 § VGGはオブジェクトの形状などの広域な特徴を学 習していない
  9. 画像の⼀部をマスクすることによる精度への影響 § ⼀つづつマスクした際のクラス確率の減少の合計値と全てマスクした際のクラス 確率の減少を⾒る § 複数のマスク粒度で実験 § 相関⾼いと § マスクの取り⽅に影響を受けない

    § BagNetsの振る舞いと近い § ⼤域的な特徴を⾒ていない § 結果 § 当然ながらBagNetsの相関 ≒ 1 § VGGもかなり相関が⾼い § ResNetとかDenseNetとか深い層の ネットワークの場合は⽐較的相関が低い