[Paper Summary (DL-paper)] Approximating CNNs with Bag-of-Local-Features models works surprisingly well on ImageNet

http://deeplearning.jp/ Approximating CNNs with Bag-of-local-Features models works surprisingly well on
ImageNet 2019/07/12 Tomoki Tanimura, B4, Jin Nakazawa Lab, Keio University

書誌情報 § ICLR2019 § 著者: Wieland Brendel and Matthias Bethge
§ 所属: Eberhard Karls University of Tubingen, Germany § Bethge Lab: http://bethgelab.org/ § 同じくICLR2019に投稿されたBethge Labからの論⽂

概要 § BagNetを提案 § 画像の局所的な特徴に基づいて画像分類を⾏う § Bag-of-Features + DNN §
予測精度を⾼いまま保ちつつ，結果の解釈が容易に⾏える § 既存のSoTA DNN達 § BoF ベースの古典的⼿法 vs DNN -> 精度的にはDNNの圧勝 § 獲得している特徴量や分類の仕⽅はBoFベースの⼿法と変わらない § 局所的な特徴をベースとして判断していることを実験的に⽰した

BoF (Bag-of-Features) § 画像の局所特徴量（SIFTやSURF等）を基にした特徴ベクトル § 画像データセットから特徴ベクトルを抽出 § 特徴ベクトルをクラスタリング § クラスタ中⼼をVisual
wordsとして定義 § 分類対象の画像Aから特徴ベクトルを抽出 § 特徴ベクトルをVisual wordsに対応づけ § Visual wordsの出現頻度が画像AのBoF

DNN § 画像を⾮線形に変換していき特徴を抽出→そのままクラスの確率を推定 § BackPropによって変換のパラメータを学習していく VGG

BagNets § BoFの局所特徴量に基づく分類とDNNを組み合わせた § BagNetsの構造 § 画像をq x qのパッチに分割 §
各パッチからResBlockベースのモデルで特徴ベクトルを抽出 § 特徴ベクトルを線形分類器でクラス分類 § 全パッチにおけるクラスの予測結果を合計 § もっとも多いクラス => 画像のクラス § 画像パッチごとの寄与を⾒れる § 解釈可能性の向上

背景 § DNNにおける解釈性の⽋如 § ⼊⼒値や中間層の特徴量に複雑な依存関係が存在するため，最終的な結果に対する要因を⼈間が解釈することは容易ではない § 精度を保ったまま解釈性を向上させたい § BoFの局所特徴を利⽤した線形分類をDNNに導⼊することによって，解釈性を向上させられる
§ DNNの振る舞いの分析 § BoFベースの⼿法とDNNsとの類似性を⾒ることで，DNNsの振る舞いに感して知⾒を得ることができるのではないか

Experiment § Accuracy & Runtime § BagNetsの精度と実⾏速度について，DNNsと⽐較する § Explaining Decisions
§ BagNetsの分類結果の解釈 § BagNetsを利⽤したDNNsの分析

Accuracy & Runtime § 精度⽐較 § 17 x 17 pixels
patch : 80.5% - AlexNetと同等 § 33 x 33 pixels patch : 87.6% - VGG-16に匹敵 § 実⾏速度⽐較 § 画像サイズ : 224 x 224 x 3 § BagNets : 155 images/s § ResNet-50 : 570 images/s Patch size

Explaining Decisions § ヒートマップの可視化 § 影響が⼤きい画像パッチの可視化 § 誤分類された画像とヒートマップの可視化 § BagNetsとDNNsの分類の仕⽅の⽐較

Explaining Decisions § BagNetsのヒートマップの可視化 § 影響が⼤きい画像パッチの可視化 § 誤分類された画像とヒートマップの可視化 § BagNetsとDNNsの分類の仕⽅の⽐較

BagNetsのヒートマップの可視化 § パッチごとの分類結果を利⽤して，ヒートマップを作成 § 画像のどの部分がpredictionの際に，影響を及ぼしているのか § 特にオブジェクトの形に注⽬している § ハロウィンのかぼちゃ: ⽬の周りを⾒ている
§ ⿅: Backgroundには⼀切注⽬しておらず，⿅そのものを⾒ている § ⼈間の知覚と近い箇所に注⽬している？

重要な画像パッチの可視化 § クラス決定に⼤きな影響を及ぼしている画像Patchを可視化 § 「⿂のクラスに指」，「phoneにキーボードのキー」など，意味的には不適切に⾒える § データセットのバイアスでは？上段: 画像とパッチのクラスが同じ
下段: 画像とパッチのクラスが違う

誤分類された画像の分析 § パッチだけから分類していることを考慮すると，合理的な分類結果 § 明らかな間違いをしているというよりは，画像全体における物体の関係性を学習しないと正しく識別することが難しい画像が多い § 例
§ 指ぬきとガスマスク（2列⽬） § ミニスカートと本のジャケット（3列⽬）

BagNetsとDNNsの分類⽅法の⽐較 § Activation mapの相関関係 § パッチシャッフルによる影響 § 画像の⼀部をマスクすることによる影響 § 各クラスの正解率の関係性
§ 影響が⼤きいパッチをマスクすることによる精度劣化の検証

Activation mapの相関関係 § VGGとBagNetsのactivationの相関関係 § 当然ながらPatch sizeと相関は⽐例 § 33 x
33 pixelで0.88 § VGGとBagNetsは同じような画像特徴に対して反応している

パッチシャッフルによる影響 § 画像のパッチをシャッフルした時の精度への影響 § パッチシャッフル § BagNetsの予測において，パッチシャッフルは影響なし § DNNsでは影響がるが，Gram Matrixを利⽤したtexture
synthesis (Style loss)はパッチシャッフルに近い § Style LossによるTexture synthesis § 右の画像 § オブジェクトの形状がわからないような画像 § ⼈間は分類困難，VGGは分類可能 § VGGはオブジェクトの形状などの広域な特徴を学習していない

画像の⼀部をマスクすることによる精度への影響 § ⼀つづつマスクした際のクラス確率の減少の合計値と全てマスクした際のクラス確率の減少を⾒る § 複数のマスク粒度で実験 § 相関⾼いと § マスクの取り⽅に影響を受けない
§ BagNetsの振る舞いと近い § ⼤域的な特徴を⾒ていない § 結果 § 当然ながらBagNetsの相関 ≒ 1 § VGGもかなり相関が⾼い § ResNetとかDenseNetとか深い層のネットワークの場合は⽐較的相関が低い

ネットワークにおける各クラスの正答率の関係性 § BagNetsとDNNsにおける各クラスの識別精度の相関関係について可視化 § VGGとBagNetsの相関はかなり⾼い § ResNetなどの深い層のDNNsとBagNetsとの相関は⽐較的低い § これらの深い層のDNNsたちはより⼤域的な特徴を⾒ている可能性が⾼い

重要パッチをマスクすることによる影響 § BagNetsとDNNsが⾒ている箇所が類似しているかを検証 § 検証⽅法 § BagNetsにおいて影響が⼤きいパッチをマスクした時の精度への影響を検証 § 影響の⼤きいパッチを⾒るける⽅法として，saliency mapなどを作成する⼿法などとも⽐較
§ 結果 § BagNetsによって推定されたパッチをマスクするのが最も精度を低下させた § ResNetなどの深いモデルに⽐べて，VGGでは著しく精度劣化したグレーはwhite-box

考察① § 解釈性の⾼いDNN，BagNetsを提案 § 複雑なImageNet分類に対して，空間情報をなしで局所的な特徴量だけからでも，DNNに匹敵する精度で分類可能であることを⽰した § 精度が少し落ちても解釈性が重視されるタスクには有⽤（医療分野とか） § BoFにDNNを導⼊することで，弱い統計的規則性まで⾒つけることができ，精度が向上
§ DNNsとBanNetsとの関係性 § それぞれの分類⽅法や獲得していると思われる特徴量には相関がある § 特にVGGには強い相関があるが，ResNetなどのDeeperなものは相関が低い

考察② § DNNsの分析 § SytleLossがうまくいかないのはVGGはTextureなどのLocalな特徴を⾒ている⼀⽅で，ResNet などのDeepなモデルは⽐較的，広域な特徴を獲得しているためかもしれない § 基本的には，DNNも局所的な特徴に頼っているので，リアル画像から漫画などドメインが変化した時に対応できないのではないか §
局所的な特徴だけでは解けないタスクが必要 § BagNetsはそれに対して，Lower boundを提供できる § ⾼度な画像中のオブジェクトの対応関係など，より広域で複雑な画像特徴を学習できるモデルが必要になる

まとめ § 解釈性に優れたDNNモデル，BagNetsを提案 § BagNetsが既存のDNNsに匹敵する精度をImageNet分類で達成 § BagNetsを利⽤して，既存のDNNsの振る舞いを分析 § 特にVGGでは，局所的な特徴に頼って分類していることがわかった

[Paper Summary (DL-paper)] Approximating CNNs w...

[Paper Summary (DL-paper)] Approximating CNNs with Bag-of-Local-Features models works surprisingly well on ImageNet

tanimutomo

More Decks by tanimutomo

Featured

Transcript

http://deeplearning.jp/ Approximating CNNs with Bag-of-local-Features models works surprisingly well on

書誌情報 § ICLR2019 § 著者: Wieland Brendel and Matthias Bethge

概要 § BagNetを提案 § 画像の局所的な特徴に基づいて画像分類を⾏う § Bag-of-Features + DNN §

BoF (Bag-of-Features) § 画像の局所特徴量（SIFTやSURF等）を基にした特徴ベクトル § 画像データセットから特徴ベクトルを抽出 § 特徴ベクトルをクラスタリング § クラスタ中⼼をVisual

DNN § 画像を⾮線形に変換していき特徴を抽出→そのままクラスの確率を推定 § BackPropによって変換のパラメータを学習していく VGG

BagNets § BoFの局所特徴量に基づく分類とDNNを組み合わせた § BagNetsの構造 § 画像をq x qのパッチに分割 §

Experiment § Accuracy & Runtime § BagNetsの精度と実⾏速度について，DNNsと⽐較する § Explaining Decisions

Accuracy & Runtime § 精度⽐較 § 17 x 17 pixels

Explaining Decisions § ヒートマップの可視化 § 影響が⼤きい画像パッチの可視化 § 誤分類された画像とヒートマップの可視化 § BagNetsとDNNsの分類の仕⽅の⽐較

Explaining Decisions § BagNetsのヒートマップの可視化 § 影響が⼤きい画像パッチの可視化 § 誤分類された画像とヒートマップの可視化 § BagNetsとDNNsの分類の仕⽅の⽐較

Explaining Decisions § BagNetsのヒートマップの可視化 § 影響が⼤きい画像パッチの可視化 § 誤分類された画像とヒートマップの可視化 § BagNetsとDNNsの分類の仕⽅の⽐較

Explaining Decisions § BagNetsのヒートマップの可視化 § 影響が⼤きい画像パッチの可視化 § 誤分類された画像とヒートマップの可視化 § BagNetsとDNNsの分類の仕⽅の⽐較

Explaining Decisions § BagNetsのヒートマップの可視化 § 影響が⼤きい画像パッチの可視化 § 誤分類された画像とヒートマップの可視化 § BagNetsとDNNsの分類の仕⽅の⽐較

BagNetsとDNNsの分類⽅法の⽐較 § Activation mapの相関関係 § パッチシャッフルによる影響 § 画像の⼀部をマスクすることによる影響 § 各クラスの正解率の関係性

BagNetsとDNNsの分類⽅法の⽐較 § Activation mapの相関関係 § パッチシャッフルによる影響 § 画像の⼀部をマスクすることによる影響 § 各クラスの正解率の関係性

Activation mapの相関関係 § VGGとBagNetsのactivationの相関関係 § 当然ながらPatch sizeと相関は⽐例 § 33 x

BagNetsとDNNsの分類⽅法の⽐較 § Activation mapの相関関係 § パッチシャッフルによる影響 § 画像の⼀部をマスクすることによる影響 § 各クラスの正解率の関係性

パッチシャッフルによる影響 § 画像のパッチをシャッフルした時の精度への影響 § パッチシャッフル § BagNetsの予測において，パッチシャッフルは影響なし § DNNsでは影響がるが，Gram Matrixを利⽤したtexture

BagNetsとDNNsの分類⽅法の⽐較 § Activation mapの相関関係 § パッチシャッフルによる影響 § 画像の⼀部をマスクすることによる影響 § 各クラスの正解率の関係性

BagNetsとDNNsの分類⽅法の⽐較 § Activation mapの相関関係 § パッチシャッフルによる影響 § 画像の⼀部をマスクすることによる影響 § 各クラスの正解率の関係性

BagNetsとDNNsの分類⽅法の⽐較 § Activation mapの相関関係 § パッチシャッフルによる影響 § 画像の⼀部をマスクすることによる影響 § 各クラスの正解率の関係性

まとめ § 解釈性に優れたDNNモデル，BagNetsを提案 § BagNetsが既存のDNNsに匹敵する精度をImageNet分類で達成 § BagNetsを利⽤して，既存のDNNsの振る舞いを分析 § 特にVGGでは，局所的な特徴に頼って分類していることがわかった