Upgrade to Pro — share decks privately, control downloads, hide ads and more …

畳み込みニューラルネットワークの研究動向

yu4u
December 17, 2017

 畳み込みニューラルネットワークの研究動向

2017年12月に開催されたパターン認識・メディア理解研究会(PRMU)にて発表した畳み込みニューラルネットワークのサーベイ

「2012年の画像認識コンペティションILSVRCにおけるAlexNetの登場以降,画像認識においては畳み込みニューラルネットワーク (CNN) を用いることがデファクトスタンダードとなった.ILSVRCでは毎年のように新たなCNNのモデルが提案され,一貫して認識精度の向上に寄与してきた.CNNは画像分類だけではなく,セグメンテーションや物体検出など様々なタスクを解くためのベースネットワークとしても広く利用されてきている.
本稿では,AlexNet以降の代表的なCNNの変遷を振り返るとともに,近年提案されている様々なCNNの改良手法についてサーベイを行い,それらを幾つかのアプローチに分類し,解説する.更に,代表的なモデルについて複数のデータセットを用いて学習および網羅的な精度評価を行い,各モデルの精度および学習時間の傾向について議論を行う.」

yu4u

December 17, 2017
Tweet

More Decks by yu4u

Other Decks in Technology

Transcript

  1. ImageNet Large Scale Visual Recognition Challenge (ILSVRC) n ImageNetデータセットを利⽤したコンペ ⁃

    WordNetをもとにクラスを定義 ⁃ 各クラスのデータを⼤量に収集&アノテーション ⁃ 学習データ120万枚、テストデータ10万枚 n クラス分類、物体検出、位置特定等のタスクが存在 ⁃ 特にクラス分類の精度の推移が画像認識の進化の 指標として参考にされることが多い n 2012年に深層学習ベースの⼿法が優勝して以降、 (畳み込み)ニューラルネットワークの天下⼀武道会化 ⁃ ここでの優勝モデルがデファクトスタンダードとして 利⽤される ⁃ セグメンテーション等、他のタスクでも利⽤される
  2. ⼈間のエラー率5.1%︖ n そもそも⼈間のエラー率は0%なのでは︖ ⁃ No, ImageNetがどうやって作成されたかに関係 n ImageNetデータセットの作成⼿順 ⁃ WordNetを元に1000クラスを定義

    ⁃ 検索エンジンで各クラスの画像を収集 ⁃ クラウドワーカーが各画像とクラスが 対応しているか否かのバイナリ判定 n ImageNetのタスク ⁃ 画像が与えられ、1000クラスから1つのクラスを選択 h"p://karpathy.github.io/2014/09/02/what-i-learned-from-compe?ng-against-a-convnet-on-imagenet/
  3. ⼈間のエラー率5.1%︖ n “1 smart, trained and highly education human being

    performed at that error rate” ―― https://amundtveit.com/tag/imagenet/ n Andrej Karpathyさん (Stanford→OpenAI→Tesla) hCps://github.com/karpathy
  4. Karpathyさんのエラー率5.1までの道のり n 2014年のGoogLeNetの達成精度 (top5 error 6.7%) から ⼈間との⽐較をすべきと考えた n 専⽤のアノテーションツールを作成

    ⁃ ILSVRCに従事しているラボメンでも 1000クラスから5クラス選択することは⾮常に難しい n GoogLeNetの結果を利⽤して、候補を100クラスに限定 ⁃ それでも難しくラボの熟練ラベラーでも13〜15%のエラー率 n ⾃分が訓練データを⽤い、”苦痛を伴う⻑時間の学習”を経て、 じっくりアノテーションするのが効率的と気づいた ⁃ train on 500 validation images -> 1500 test images ⁃ テストエラー5.1%を達成︕ • ⽝の品種に詳しくなった︕ n 上記のように、エラー率5.1%は天才がかなり頑張った結果 ⁃ とはいえCNNの学習時間に⽐べるとまだ⾜りないという考え⽅も
  5. Before AlexNet n Neocognitron ⁃ 脳の視覚野に関する知⾒を元に考案 • 単純型細胞=特徴抽出を⾏う畳み込み層 • 複雑型細胞︓位置ずれを吸収するプーリング層

    ⁃ ⾃⼰組織化による特徴抽出 K. Fukushima and S. Miyake, "Neocognitron: A new algorithm for paCern recogniTon tolerant of deformaTons and shiUs in posiTon," in PaCern RecogniTon, 1982.
  6. Before AlexNet n Neocognitronの活性化関数は実はReLU K. Fukushima and S. Miyake, "Neocognitron:

    A new algorithm for paCern recogniTon tolerant of deformaTons and shiUs in posiTon," in PaCern RecogniTon, 1982.
  7. Before AlexNet n LeNet ⁃ 逆誤差伝搬法による学習 ⁃ ⽂字認識で成功をおさめる ⁃ 全体的なアーキテクチャは既に完成

    Y. LeCun, L. BoCou, Y. Bengio, and P. Haffner, "Gradient-based learning applied to document recogniTon," in Proceedings of the IEEE, 1998.
  8. Before AlexNet n 巷のLeNetはLeNetではない Y. LeCun, L. BoCou, Y. Bengio,

    and P. Haffner, "Gradient-based learning applied to document recogniTon," in Proceedings of the IEEE, 1998. 出⼒チャネル ⼊⼒チャネル Sparseな 畳み込み︕
  9. AlexNet n 2012年のILSVRC優勝モデル ⁃ Rectified Linear Units (ReLU) ⁃ Local

    Response Normalization (LRN) (最近は使われない) ⁃ Overlapping pooling (3x3 max pool, stride =2) ⁃ Dropout(全結合層) ⁃ SGD + momentum, weight decay, learning rate decay A. Krizhevsky, I. Sutskever, and G. E. Hinton, "Imagenet classificaTon with deep convoluTonal neural networks," in Proc. of NIPS, 2012. 既にほぼ現在のアーキテクチャの姿
  10. GoogLeNet n 2014年のILSVRC優勝モデル ⁃ Inceptionモジュール ⁃ Global Average Pooling (GAP)

    ⁃ Auxiliary loss • ネットワークを途中で分岐させ、そこで分類を⾏うロスを追加 →学習の効率化+正則化
  11. GoogLeNet n Inceptionモジュール ⁃ ⼩さなネットワークを1つのモジュールとして定義し モジュールの積み重ねでネットワークを構成 • 3x3と複数の1x1畳み込みを1つのモジュールとする Network In

    Network (NIN) に起源 ⁃ Sparseな畳み込みにより、 表現能⼒とパラメータ数のトレードオフを改善 ⁃ 1x1畳み込みによる次元削減 concat conv 1x1 conv 1x1 maxpool conv 1x1 conv 3x3 conv 5x5 conv 1x1 concat maxpool conv 1x1 conv 3x3 conv 5x5 Inceptionモジュール(次元削減あり) Inceptionモジュール(naive)
  12. Sparseな畳み込み︖ n 通常の畳み込みのパラメータ数=N×M×K2 ⁃ N: ⼊⼒チャネル数、M: 出⼒チャネル数、K2: カーネルサイズ n (例)グループ化畳み込みのパラメータ数=N×M×K2

    / G ⁃ G: グループ数 ⼊⼒チャネル数 出⼒チャネル数 カーネルサイズ グループ数2の例 ※簡単のためbiasは無視 KxK畳み込みの パラメータ
  13. Sparseな畳み込みとしてのInceptionモジュール concat maxpool conv 1x1 conv 3x3 conv 5x5 Inceptionモジュール(naive)

    ⼊⼒チャネル数 出⼒チャネル数 カーネルサイズ 5x5 3x3 1x1 5x5の畳み込みを 少数パラメータで近似 ※簡単のためmax poolを無視
  14. Sparseな畳み込みとしてのInceptionモジュール concat conv 1x1 conv 1x1 maxpool conv 1x1 conv

    3x3 conv 5x5 conv 1x1 Inceptionモジュール(次元削減あり) 1x1畳み込み Inceptionモジュール ※簡単のためmax poolを無視 1x1畳み込みの次元削減で 更にパラメータを削減 naïveバージョン
  15. GoogLeNet n Global Average Pooling (GAP) ⁃ 特徴マップのサイズと同じaverage pooling ⁃

    NINで最初に利⽤された • NINではチャネル数をクラス数に調整してからGAP • GoogLeNet以降では、GAPの後に全結合層を付ける ⁃ 全結合層を減らすことでパラメータ数を削減 W H C=クラス数 1 1 HxWxCの 特徴マップ クラス数 GAP soUmax
  16. Inception-v? n Inception-v2,3 ⁃ Batch normalization ⁃ 5x5 -> 3x3

    (x2) ⁃ nxn -> nx1 + 1xn n Inception-v4 ⁃ 3種類のInceptionを 使い分け n Inception-ResNet-v1,2 ⁃ 後述のショートカット機構の導⼊ C. Szegedy, V. Vanhoucke, S. Ioffe, and J. Shlens, "Rethinking the inception architecture for computer vision," in Proc. of CVPR, 2016. C. Szegedy, S. Ioffe, V. Vanhoucke, and A. A. Alemi, "Inception-v4, inception-resnet and the impact of residual connections on learning," in Proc. of AAAI, 2017.. = IncepTon-v3
  17. VGGNet n 2014年のILSVRCで2位となったモデル n シンプルなモデルの設計⽅針 ⁃ 3x3畳み込み層(+全結合層)のみを利⽤ • 5x5畳み込みと3x3畳み込み×2は同じreceptive fieldを持つ

    • 計算量は 25:18 ⁃ 同⼀出⼒チャネルの畳み込み層を重ねた後に プーリングにより特徴マップを半分にしつつチャネル数を倍増 n まずは浅いネットワークを学習し、畳み込み層を追加して fine-tuningすることで深いネットワークを学習 ⁃ Xavierの初期化を利⽤することで事前学習は不要に conv 5x5 conv 3x3 - conv 3x3
  18. Residual Networks (ResNet) n 2015年のILSVRC優勝モデル n Residualモジュール(ショートカット機構)の導⼊→後述 n Batch normalizationの導⼊

    ⁃ ネットワーク内の共変量シフトを軽減 • 学習バッチ毎に、⾃分より前の層のパラメータ更新により、 ⼊⼒される特徴マップの分布が⼤きく変わる n Global Average Pooling (GAP) の利⽤ ⁃ 全結合層の削減によるパラメータ数削減 n Heの初期化の利⽤ ⁃ ReLUを考慮したパラメータの初期化 n ショートカットを展開していくと複数の深さの違う ネットワークのアンサンブルとなっている [1] [1] A. Veit, M. Wilber, and S. Belongie, "Residual networks behave like ensembles of relatively shallow networks," in Proc. of NIPS, 2016.
  19. Residual Networks (ResNet) n Residualモジュール ⁃ ある処理の出⼒ F(x) を次の層に渡すのではなく ⼊⼒xをショートカットし、

    F(x) + x を次の層に渡す処理単位 n Backpropagation時にショートカットを通じて 直接勾配が下層に伝わることで深いネットワークでも 効率的な学習が可能 some network F(x) conv 3x3, 64 conv 3x3, 64 ショートカット + + 64-dim 64-dim 抽象的なresidualモジュール 具体例
  20. Residual Networks (ResNet) n 全体の構造 ⁃ Residualモジュールの スタック ⁃ ダウンサンプルする際に

    チャネル数を2倍に (VGGと同じ) ⁃ チャネル数が違う ショートカットは zero-padingか conv 1x1で調整 Resモジュール 3x3, 64 Resモジュール 3x3, 128 Resモジュール 3x3, 256 Resモジュール 3x3, 512 GAP 全結合層 conv 3x3, 64 maxpool ×3 ×4 ×6 ×3 conv 3x3, 64 conv 3x3, 64 + 64-dim 64-dim 114x114x64 224x224x3 56x56x64 28x28x128 14x14x256 7x7x 512 1000
  21. Bottleneckバージョン n 1x1畳み込みで次元削減、その後3x3畳み込みを⾏った後、 更に1x1畳み込みで次元を復元 n 同等のパラメータ数で表現能⼒を改善 ⁃ 深くもなる n パラメータ数↓

    conv 3x3, 64 conv 3x3, 64 + 64-dim 64-dim conv 1x1, 256 conv 3x3, 64 + conv 1x1, 64 256-dim 256-dim ⼊⼒チャネル数 出⼒チャネル数 カーネルサイズ 通常 Bottleneck版
  22. Squeeze-and-Excitation Networks (SENet) n 2017年のILSVRC優勝モデル n チャネル毎の特徴マップを適応的に重み付けする SE Blockを導⼊ ⁃

    Globalなコンテキストを取得するsqueeze step ⁃ チャネル間の依存関係を抽出するexcitation step n どんなネットワークにも導⼊可能 ⁃ ResNet, ResNeXt, Inception, Inception-ResNet-v2等に導⼊し 有効性を確認 conv 1x1 global pooling ReLU conv 1x1 sigmoid scaling HxWxC 1x1xC 1x1xC/r 1x1xC HxWxC
  23. Residual まとめ AlexNet VGGNet GoogLeNet ResNet Batch Normalization LeNet Neocognitron

    Back propagation Heの初期化 Glorotの 初期化 conv 1x1 Dropout ReLU 1990s 2012 2013 2014 2015 NIN Global Average Pooling
  24. まとめ AlexNet VGGNet GoogLeNet ResNet Batch Normalization LeNet Neocognitron Back

    propagation Heの初期化 Glorotの 初期化 conv 1x1 Dropout ReLU 1990s 2012 2013 2014 2015 NIN Global Average Pooling Residual
  25. Residualモジュールの改良 n Residualモジュールをゴニョゴニョする n WideResNet ⁃ 深くするより、幅(チャネル数)を⼤きくして(相対的 に)浅いネットワークのほうが精度・学習速度が優秀 n PyramidNet

    ⁃ サウンサンプルするタイミングでチャネル数を 2倍にするのではなく、全てのresidualモジュールで 徐々にチャネル数を増加させる • チャネル数を2倍にするresidualモジュールに ネットワークが過度に依存してしまうのを防ぐ
  26. Residualモジュールのベストプラクティス n 初代ResNet ⁃ conv - bn - relu -

    conv - bn - add - relu n pre-act ResNet(add→ReLUだとショートカットの効果が半減) ⁃ bn - relu - conv - bn - relu - conv - add n PyramidNet(ReLUを減らす、BN追加) ⁃ bn - conv - bn - relu - conv - bn - add n WideResNet(dropoutがタスクによって効果がある) ⁃ bn - relu - conv - bn - relu - dropout - conv – add n pre-actで、ReLUを1つ削除したPyramidNet系が良い (bnの追加は︖個⼈の意⾒です)
  27. ResNeXt n ResNetの処理ブロックを”Network-in-Neuron” に置き換えたもの n (a)と(b)は等価表現 conv 1x1, 4 conv

    3x3, 4 conv 1x1, 256 conv 1x1, 4 conv 3x3, 4 conv 1x1, 256 conv 1x1, 4 conv 3x3, 4 conv 1x1, 256 ... + 256-dim 256-dim conv 1x1, 128 conv 3x3, 128, g=32 conv 1x1, 256 256-dim 256-dim + (a) (b) Ti (x) grouped convolution
  28. Xception n 空間⽅向のとチャネル⽅向に独⽴に畳み込みを⾏う separable畳み込みを活⽤ ⁃ Depthwise畳み込み(空間⽅向) • 特徴マップに対しチャネル毎に畳み込み • 計算量︓H・W・N・K2・M

    (M=N) H・W・K2・N ⁃ Pointwise畳み込み(チャネル⽅向) • 1x1の畳み込み • 計算量︓H・W・N・K2・M (K=1) H・W・N・M ⁃ Depthwise + pointwise • 計算量︓H・W・N・(K2 + M) ≒ H・W・N・M (M >> K2) n 通常のKxK畳み込みから⼤幅に計算量を削減 42 W H W H N 1 1 M W H W H N K K N
  29. Xception n 全体アーキテクチャ n モジュール構造 ⁃ relu - sep -

    bn - relu - sep - bn - relu - sep - bn - add F. Chollet, "XcepTon: Deep learning with depthwise separable convoluTons," in Proc. of CVPR, 2017. (sep: separable畳み込み)
  30. Residual Networks of Residual Networks (RoR) n 複数のResidualモジュールを1つのモジュールとみなし その間にショートカットを作成する K.

    Zhang, M. Sun, T. X. Han, X. Yuan, L. Guo, and T. Liu, "Residual networks of residual networks: MulTlevel residual networks," in TCSVT, 2017.
  31. FractalNet n 再帰的に定義されるネットワーク ⁃ パスをdropするdropout的な学習 • 1カラムだけ残す or 各パスをランダムにdrop ⁃

    浅い列のパスがResNetのショートカットのような効果 conv, bn, relu G. Larsson, M. Maire, and G. Shakhnarovich, "Fractalnet: Ultra-deep neural networks without residuals," in Proc. ofICLR, 2017.
  32. DenseNet (CVPRʼ17 best paper) n Dense blockをtransition layerでつないだ構造 conv Dense

    block Dense block Dense block fc Input image Result G. Huang, Z. Liu, K. Q. Weinberger, and L. Maaten, “Densely connected convoluTonal networks", in Proc. of CVPR, 2017. Dense block Transitionレイヤ
  33. Dense Block n 同⼀ブロック内の⾃分より前の層全ての出⼒を 各層への⼊⼒とする処理ブロック ⁃ ⼊⼒k0 、総数l、各層の出⼒k とすると出⼒はk0 +l×k

    ⼊⼒: k0 , 出⼒: k ⼊⼒: k0 +k, 出⼒: k ⼊⼒: k0 +2k, 出⼒: k ⼊⼒: k0 +3k, 出⼒: k bn - relu – conv 3x3 G. Huang, Z. Liu, K. Q. Weinberger, and L. Maaten, “Densely connected convoluTonal networks", in Proc. of CVPR, 2017. ⼊⼒: k0 出⼒: k0 +4k
  34. Dense Block (Bottleneckバージョン) n k0 >> k なので通常の畳み込みよりも計算量が少ないが conv 1x1で次元削減を⾏うことで更に計算量を削減

    ⼊⼒: k0 , 中間出⼒: 4k, 出⼒: k ⼊⼒: k0 +k, 中間出⼒: 4k, 出⼒: k ⼊⼒: k0 +2k, 中間出⼒: 4k, 出⼒: k ⼊⼒: k0 +3k, 中間出⼒: 4k, 出⼒: k bn - relu - conv 1x1 bn - relu - conv 3x3 G. Huang, Z. Liu, K. Q. Weinberger, and L. Maaten, “Densely connected convoluTonal networks", in Proc. of CVPR, 2017. ⼊⼒: k0 出⼒: k0 +4k
  35. Transition Layer n Transitionレイヤの基本的な役割はダウンダンプリング ⁃ conv 1x1の⼊出⼒チャネル数は k0+l×k n Compressionバージョンのtransitionレイヤ

    ⁃ conv 1x1の出⼒チャネル数を θ(k0+l×k) とす ⁃ θ≦1、論⽂では0.5 n 前述のbottleneck構造と圧縮するtransitionレイヤを 利⽤する場合が精度とパラメータ数のトレードオフで優秀 (DenseNet-BC) conv Dense block Dense block Dense block fc Input image Result Transitionレイヤ bn – conv 1x1 – avepool 2x2
  36. Deep Networks with Stochastic Depth n ResNetは⾮常にdeepであることが学習を難しくしている ⁃ バッチ毎にresidual unitをランダムにdropすることで

    「期待値で⾒たときの深さ」を浅くする ⁃ Drop確率は出⼒に近いほど⾼くなるように線形に増加 n テスト時はdropせずに、drop率で出⼒をスケーリング ⁃ 通常のResNetと⽐較して、学習が早く、⾼精度 G. Huang, Y. Sun, Z. Liu, D. Sedra, and K. Weinberger, "Deep networks with stochasTc depth," in Proc. of ECCV, 2016. Residual モジュール Drop率 Input Output
  37. Swapout n Residualモジュールの出⼒ H(x) = F(x) + xについて ⁃ F(x)

    および x をそれぞれ個別にdropするdropout ⁃ 0, x, F(x), F(x) + x の4パターンの出⼒ • Dropoutだと 0 か F(x) + x • モジュールの途中にいれると x か F(x) + x n 推論時もswapoutを有効にしたまま複数回forwardを⾏ い、 それらの平均を推論結果とする形でないと精度がでない S. Singh, D. Hoiem, and D. Forsyth, "Swapout: Learning an ensemble of deep architectures," in Proc. of NIPS, 2016.
  38. Shake-Shake Regularization n 特徴マップレベルでのデータ拡張 ⁃ 画像レベルではcroppingをすることで画像内の物体の⽐率を 変化させることで、その変化にロバストに ⁃ 特徴マップレベルでも同じことができないか︖ n

    モジュール内でネットワークを分岐させ画像レベルで 各分岐の出⼒をランダムな⽐率(α∈[0, 1])で混合する ⁃ Backward時には違う⽐率βを利⽤する n CIFAR-10/100でのSotA conv 3x3 conv 3x3 conv 3x3 conv 3x3 + * * αl 1−αl conv 3x3 conv 3x3 conv 3x3 conv 3x3 + * * βl 1− βl conv 3x3 conv 3x3 conv 3x3 conv 3x3 + * * 0.5 0.5 Forward Backward Test
  39. ShakeDrop n 分岐させずに特徴マップに対する外乱を加えられないか ⁃ PyramidNetとShakeShakeの統合 ⁃ PyramidNetにおいてdropさせる代わりに ShakeShakeのような外乱を加える n α∈[­1,1]、β∈[0,1]、チャネルレベルの外乱が最も良い

    n CIFAR-10/100でのSotA conv 3x3 conv 3x3 * * b l 1− b l Forward αl * + conv 3x3 conv 3x3 * * b l 1− b l Backward βl * + conv 3x3 conv 3x3 * + Test E[b l +(1− b l )αl ] 少ないパラメータで これを超えたやつが また出るらしい
  40. Fire module (SqueezeNet) n 戦略 ⁃ 3x3の代わりに1x1のフィルタを利⽤する ⁃ 3x3への⼊⼒となるチャネル数を少なくする n

    Inceptionモジュールの特殊系とみなすこともできる 60 conv 1x1, s1x1 conv 1x1, e1x1 conv 3x3, e3x3 concat Fire module 32 128 128 256 256 Squeeze layer Expand layer
  41. SqueezeNet n パラメータ数 n 通常の畳み込み n Fire module Squeeze layer

    Expand layer ⼊⼒チャネル数 出⼒チャネル数 カーネルサイズ 3x3 1x1
  42. MobileNet n Xceptionと同様にseparable畳み込みを利⽤した 軽量なネットワーク n Xceptionとの違い ⁃ depthwiseとpointwiseの間にBNとReLUが⼊っている • Xceptionの論⽂では⼊れないほうが精度が良いとの主張

    ⁃ ショートカットは利⽤してない 通常の畳み込み MobileNetの1要素 A. Howard et al., "Mobilenets: Efficient convoluTonal neural networks for mobile vision applicaTons," in arXiv:1704.04861, 2017.
  43. アーキテクチャの⾃動設計 n ネットワーク構造を進化的アルゴリズム最適化、250 GPUs [1] n ネットワーク構造を出⼒するRNNをREINFORCEアルゴリズムで学習、 800 GPUs 28days

    [2], 500 GPUs 4 days [4] n 階層的なネットワーク構造を進化的アルゴリズムで最適化、~200 GPUs [3] n [4] をSequential Model-Based Optimization (SMBO)で最適化、50 GPUs [5] [1] E. Real, S. Moore, A. Selle, S. Saxena, Y. Suematsu, J. Tan, Q. Le, and A. Kurakin, "Large- Scale EvoluTon of Image Classifiers," in Proc. of ICLR, 2017. [2] B. Zoph and Q. V. Le, "Neural architecture search with reinforcement learning," in arXiv:1611.01578, 2016. [3] H. Liu, K. Simonyan, O. Vinyals, C. Fernando, and K. Kavukcuoglu, "Hierarchical representaTons for efficient architecture search," in arXiv:1711.00436, 2017. [4] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, "Learning transferable architectures for scalable image recogniTon," in arXiv:1707.07012, 2017. [5] C. Liu, B. Zoph, J. Shlens, W. Hua, L. Li, L. Fei-Fei, A. Yuille, J. Huang, and K. Murphy, "Progressive Neural Architecture Search," in arXiv:1712.00559, 2017.
  44. アーキテクチャの⾃動設計 n ネットワーク構造を進化的アルゴリズム最適化、250 GPUs [1] n ネットワーク構造を出⼒するRNNをREINFORCEアルゴリズムで学習、 800 GPUs 28days

    [2], 500 GPUs 4 days [4] n 階層的なネットワーク構造を進化的アルゴリズムで最適化、~200 GPUs [3] n [4] をSequential Model-Based Optimization (SMBO)で最適化、50 GPUs [5] [1] E. Real, S. Moore, A. Selle, S. Saxena, Y. Suematsu, J. Tan, Q. Le, and A. Kurakin, "Large- Scale EvoluTon of Image Classifiers," in Proc. of ICLR, 2017. [2] B. Zoph and Q. V. Le, "Neural architecture search with reinforcement learning," in arXiv:1611.01578, 2016. [3] H. Liu, K. Simonyan, O. Vinyals, C. Fernando, and K. Kavukcuoglu, "Hierarchical representaTons for efficient architecture search," in arXiv:1711.00436, 2017. [4] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, "Learning transferable architectures for scalable image recogniTon," in arXiv:1707.07012, 2017. [5] C. Liu, B. Zoph, J. Shlens, W. Hua, L. Li, L. Fei-Fei, A. Yuille, J. Huang, and K. Murphy, "Progressive Neural Architecture Search," in arXiv:1712.00559, 2017. Google Brain Google Brain Deep Mind Google Brain Google **
  45. Learning Transferable Architectures for Scalable Image Recognition n ネットワーク構造を出⼒するRNNをREINFORCEアルゴリ ズムで学習

    n 全体の構造とモジュール内で利⽤できる構成要素が決まっ ている(これの元となった論⽂ではそうではない) ] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, "Learning transferable architectures for scalable image recogniTon," in arXiv:1707.07012, 2017. ←全体の構造 ↓利⽤できる構成要素 (計算量の⼩さいものが多い)
  46. Learning Transferable Architectures for Scalable Image Recognition n 結果 n

    Sepばっかり(⾒た⽬上の計算量が⼩さい→実測は︖) ] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, "Learning transferable architectures for scalable image recogniTon," in arXiv:1707.07012, 2017.
  47. Learning Transferable Architectures for Scalable Image Recognition n つよい ]

    B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, "Learning transferable architectures for scalable image recognition," in arXiv:1707.07012, 2017.
  48. 最新⼿法の実装 n Caffe 学習環境 評価環境 学習済みモデル 公開コード AlexNet あり あり

    あり https://github.com/BVLC/caffe/tree/master/model s/bvlc_alexnet VGG あり あり あり https://github.com/ruimashita/caffe-train GoogLeNet あり あり あり https://github.com/BVLC/caffe/tree/master/model s/bvlc_googlenet ResNet なし あり あり https://github.com/KaimingHe/deep-residual- networks MobleNet なし あり あり https://github.com/shicai/MobileNet-Caffe SqueezeNet あり あり あり https://github.com/DeepScale/SqueezeNet DenseNet あり あり なし https://github.com/liuzhuang13/DenseNetCaffe
  49. 学習環境 評価環境 学習済みモデル 公開コード AlexNet なし あり なし https://github.com/ethereon/caffe-tensorflow VGG

    なし あり なし https://github.com/machrisaa/tensorflow-vgg https://www.cs.toronto.edu/~frossard/post/vgg16/ GoogLeNet なし あり あり https://www.tensorflow.org/versions/master/tutori als/image_recognition ResNet あり あり あり https://github.com/ry/tensorflow-resnet MobleNet あり あり あり https://github.com/Zehaos/MobileNet SqueezeNet あり あり あり https://github.com/vonclites/squeezenet DenseNet あり あり なし https://github.com/YixuanLi/densenet-tensorflow 最新⼿法の実装 n Tensorflow
  50. 学習環境 評価環境 学習済みモデル 公開コード AlexNet あり あり あり https://github.com/pytorch/examples/tree/master /imagenet

    VGG あり あり あり https://github.com/pytorch/examples/tree/master /imagenet GoogLeNet あり あり あり https://github.com/pytorch/examples/tree/master /imagenet ResNet あり あり あり https://github.com/pytorch/examples/tree/master /imagenet MobleNet あり あり あり https://github.com/marvis/pytorch-mobilenet SqueezeNet あり https://github.com/pytorch/vision DenseNet あり あり あり https://github.com/pytorch/vision https://github.com/bamos/densenet.pytorch 最新⼿法の実装 n pytorch
  51. 学習環境 評価環境 学習済みモデル 公開コード AlexNet あり あり あり https://github.com/chainer/chainer/tree/master/e xamples/imagenet

    VGG なし あり あり https://github.com/pytorch/examples/tree/master /imagenet GoogLeNet あり あり あり https://github.com/chainer/chainer/tree/master/e xamples/imagenet ResNet あり なし あり https://github.com/yasunorikudo/chainer- ResNet/tree/master/v2 https://github.com/chainer/chainer/tree/master/e xamples/imagenet MobleNet SqueezeNet https://github.com/ejlb/squeezenet-chainer DenseNet あり あり あり https://github.com/yasunorikudo/chainer- DenseNet 最新⼿法の実装 n chainer
  52. 最新⼿法の実装 n 各種学習済みモデルの⽐較(pytorch) https://github.com/Cadene/pretrained-models.pytorch Model Version Acc@1 Acc@5 NASNet-A-Large Tensorflow

    82.693(82.566) 96.163(96.086) InceptionResNetV2 Tensorflow 80.4(80.170) 95.3(95.234) InceptionV4 Tensorflow 80.2(80.062) 95.3(94.926) ResNeXt101_64x4d Torch7 79.6(78.956) 94.7(94.252) ResNeXt101_32x4d Torch7 78.8(78.188) 94.4(93.886) ResNet152 Pytorch 78.428 94.110 FBResNet152 Torch7 77.84(77.386) 93.84(93.594) DenseNet161 Pytorch 77.560 93.798 InceptionV3 Pytorch 77.294 93.454 DenseNet201 Pytorch 77.152 93.548 ResNet101 Pytorch 77.438 93.672 DenseNet169 Pytorch 76.026 92.992 ResNet50 Pytorch 76.002 92.980 DenseNet121 Pytorch 74.646 92.136 VGG19_BN Pytorch 74.266 92.066
  53. 学習条件 CIFAR10/100 Imagenet 学習データ数 10万枚 128万枚 Data augmentation 位置ずれ,反転 (上下左右に4ピクセルのマージンを付与

    し,32x32をランダムにクロップ) 位置ずれ,反転 (256x256にリサイズし,224x2 24をランダムにクロップ) エポック数 300エポック 90エポック 学習最適化法 モーメンタムSGD (モーメンタム:0.9) モーメンタムSGD (モーメンタム:0.9) 学習係数スケジュール 初期値0.1,150エポック時,225 エポック時に0.1倍 初期値0.1,30エポック毎に0.1倍 バッチサイズ 128 256
  54. 学習環境 n CIFAR10/100 (single GPUで学習・評価) GPU搭載ワークステーション︓97台 各端末のスペック Quadoro P5000 Xeon

    E5-2620 Mem. 16GB Infiniband Ubuntu 16.04 chainer 3.0 chainer MN 1.0 opencv 3.2.0 nvidia-docker singularity
  55. ⽐較アーキテクチャ アーキテクチャ名 層数 データベース AlexNet 8 ImageNet VGG 16 CIFAR10/100,ImageNet

    GoogLeNet 22 CIFAR10/100,ImageNet SqueezeNet 10 CIFAR10/100,ImageNet ResNet 18/50/101 CIFAR10/100,ImageNet WideResNet 101(k=4) CIFAR10/100 PyramidNet 101(α=84) CIFAR10/100 FractalNet 20(Cols=3) CIFAR10/100 DenseNet 72(k=12) CIFAR10/100,ImageNet SENet 50(r=4) CIFAR10/100
  56. CIFAR10での誤差(学習データ) 0.0001 0.001 0.01 0.1 1 10 1 51 101

    151 201 251 誤差 エポック数 Train loss VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideRexNet・PyramidNetが最も誤差が低い SENetは誤差が上昇しており,過学習気味
  57. CIFAR10での誤差(テストデータ) 0.1 1 10 1 51 101 151 201 251

    誤差 エポック数 Test loss VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideRexNetが最も誤差が低い FractalNetは学習後期でもばらつきが⼤きい GoogLeNetは誤差が上昇(過学習)
  58. CIFAR10での精度(学習データ) 0.7 0.75 0.8 0.85 0.9 0.95 1 1 51

    101 151 201 251 精度 エポック数 Tran accuracy VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideResNet・PyramidNet・DenseNetなど幅を持つアーキテクチャはほとんど同精度
  59. CIFAR10での精度(テストデータ) 0.7 0.75 0.8 0.85 0.9 0.95 1 1 51

    101 151 201 251 精度 エポック数 Test accuracy VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideResNet・PyramidNet・DenseNetなど幅を持つアーキテクチャはほとんど同精度
  60. CIFAR100での誤差(学習データ) 0.001 0.01 0.1 1 10 1 51 101 151

    201 251 誤差 エポック数 Train loss VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet CIFAR10と同様にWideResNet・PyramidNetの誤差が低い
  61. CIFAR100での誤差(テストデータ) 0 0.5 1 1.5 2 2.5 3 3.5 4

    4.5 5 1 51 101 151 201 251 誤差 エポック数 Test loss VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideResNetが最も誤差が低い FractalNetは学習後期でもばらつきが⼤きい GoogLeNetは誤差が上昇(過学習)
  62. CIFAR100での精度(学習データ) 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

    0.9 1 1 51 101 151 201 251 精度 エポック数 Tran accuracy VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideResNet・PyramidNet・DenseNetなど幅を持つアーキテクチャはほとんど同精度
  63. CIFAR100での精度(テストデータ) 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

    0.9 1 1 51 101 151 201 251 精度 エポック数 Test accuracy VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideResNetが最も精度が⾼い
  64. CIFAR10/100での精度 アーキテクチャ名 エラー率[%] 学習時間[h] CIFAR10 CIFAR100 VGG 6.0 27.4 2.9

    GoogLeNet 9.3 31.7 4.6 SqueezeNet 10.8(18.0) 36.0 1.8 ResNet101 5.3(6.5) 25.9 9.2 WideResNet 4.8(4.0) 20.7 19.6 PyramidNet 4.3(3.8) 22.0 15.6 ResNeXt 4.5(3.6) 20.7 27 FractalNet 5(4.6) 26.0 5.1 DenseNet 5.1(3.8) 24.6 19.6 SENet 4.8 24.2 36.7 WideResNet・PyramidNetは精度が良いが,学習時間はResNetの1.5-2倍程度
  65. CIFAR10での正則化⼿法の⽐較(学習誤差) 0.0001 0.001 0.01 0.1 1 10 1 51 101

    151 201 251 301 351 401 451 501 551 誤差 エポック数 Train loss ResNet101 Stochastic Depth Shake-Shake Swapout ResNet101+cutout Shake-Shake+cutout 学習誤差はResNet101(正則化なし)が最も低い
  66. CIFAR10での正則化⼿法の⽐較(テスト誤差) 0.1 1 10 1 51 101 151 201 251

    301 351 401 451 501 551 誤差 エポック数 Test loss ResNet101 Stochastic Depth Shake-Shake Swapout ResNet101+cutout Shake-Shake+cutout テスト誤差はShake-Shake,Shake-Shake+cutout(正則化あり)が最も低い ResNet101は過学習している
  67. CIFAR10での正則化⼿法の⽐較(精度︓学習データ) 0.7 0.75 0.8 0.85 0.9 0.95 1 1 51

    101 151 201 251 301 351 401 451 501 551 精度 エポック数 Tran accuracy ResNet101 Stochastic Depth Shake-Shake Swapout ResNet101+cutout Shake-Shake+cutout ResNet・Swapoutが最も⾼い(過学習している)
  68. CIFAR10での正則化⼿法の⽐較(精度︓テストデータ) 0.7 0.75 0.8 0.85 0.9 0.95 1 1 51

    101 151 201 251 301 351 401 451 501 551 精度 エポック数 Tran accuracy ResNet101 Stochastic Depth Shake-Shake Swapout ResNet101+cutout Shake-Shake+cutout Shake-Shake+cutout(正則化あり)の最も精度が⾼い
  69. CIFAR10/100での正則化⼿法の⽐較 正則化⼿法 エラー率[%] 学習時間[h] CIFAR10 CIFAR100 ResNet101 5.3(6.5) 25.9 13.2

    Stochastic Depth 5.2 23.5 12 Shake-Shake 3.0 18.4 77.8 Swapout 6.0 26.8 42.0 ResNet101+cutout 3.5 25.0 13.1 Shake-Shake+cutout 2.7 17.5 76.5 Shake-Shakeは正則化として効果が⾼い (ただし,学習時間が⼤幅に増加) Cutoutは汎化性向上に効く
  70. 0 1 2 3 4 5 6 7 8 1

    51 誤差 エポック数 Train loss AlexNet DenseNet(20層) ResNet152 ResNet18 ResNet34 SqueezeNet(1.1) VGG16 Imagenetでの⽐較(学習誤差) ResNet系のアーキテクチャは誤差が低い
  71. Imagenetでの⽐較(TOP1) 0 10 20 30 40 50 60 70 80

    90 100 1 51 精度 エポック数 Val Accuracy(Top1) AlexNet DenseNet(20層) ResNet152 ResNet18 ResNet34 SqueezeNet(1.1) VGG16
  72. Imagenetでの⽐較(TOP5) 0 10 20 30 40 50 60 70 80

    90 100 1 51 精度 エポック数 Val Accuracy(Top5) AlexNet DenseNet(20層) ResNet152 ResNet18 ResNet34 SqueezeNet(1.1) VGG16
  73. Imagenetでの評価 アーキテクチャ名 Top1エラー率[%] Top5エラー率[%] パラメータ数[M] AlexNet 49.9 26.2(16.4) 62.0 VGG16

    26.5 8.4(7.3) 138.0 SqueezeNet 44.2 21.3 0.7 Inception-v3 22.8 6.6 22.5 ResNet-18 30.4 10.7 0.2 ResNet-34 26.7 8.6 0.5 ResNet-152 21.9 6.1(3.5) 1.7 DenseNet-201 23.5 6.6 15.0
  74. まとめ(アーキテクチャサーベイより) n 主にアーキテクチャの観点から ⁃ ILSVRC歴代の優勝モデルからCNNの歴史を振り返る ⁃ 近年のCNNをアプローチをもとに分類し、解説 n 全体的なアーキテクチャとしてはほとんどResNet ⁃

    DenseNet以外に独⾃の全体的なアーキテクチャの成功例がない n Residualモジュールの改良は、次元削減とsparseな 畳み込みを組合せているものがほとんどと⾔える ⁃ 畳み込みのパラメータを削減し、 その分深さや幅を⼤きくすることで精度を向上する n データおよびモデル内の正則化は他の⼿法と組合せられる上 に効果が⼤きく期待できる ⁃ 学習時は外乱を加えるために複雑なネットワークだが、推論時はそ れらを統合したシンプルなネットワークにするとかができないか︖ n 富豪じゃなくてもできるアーキテクチャの⾃動設計に期待