畳み込みニューラルネットワークの研究動向

畳み込みニューラルネットワークの研究動向株式会社ディー・エヌ・エー内⽥祐介中部⼤学⼭下隆義

本⽇の発表の内容 n 主にアーキテクチャの観点から ⁃ ILSVRC歴代の優勝モデルから畳み込みニューラルネットワークの歴史を振り返る ⁃ 近年の畳み込みニューラルネットワークをアプローチをもとに分類、解説 ⁃
代表的なネットワークを実際に訓練・評価 n Outline ⁃ ILSVRCで振り返るCNNの進化 ⁃ 最新のCNN改良⼿法 ⁃ 各アーキテクチャの⽐較

本⽇の発表の内容 n 畳み込みニューラルネットワークにまつわる項⽬のうち各構成要素をどうモデルに組み上げるかにフォーカス ⁃ 細かい構成要素に関する説明は最⼩限 J. Gu et al.,
"Recent Advances in Convolutional Neural Networks," in arXiv:1512.07108, 2017.

ILSVRCで振り返るCNNの進化

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) n ImageNetデータセットを利⽤したコンペ ⁃
WordNetをもとにクラスを定義 ⁃ 各クラスのデータを⼤量に収集＆アノテーション ⁃ 学習データ120万枚、テストデータ10万枚 n クラス分類、物体検出、位置特定等のタスクが存在 ⁃ 特にクラス分類の精度の推移が画像認識の進化の指標として参考にされることが多い n 2012年に深層学習ベースの⼿法が優勝して以降、（畳み込み）ニューラルネットワークの天下⼀武道会化 ⁃ ここでの優勝モデルがデファクトスタンダードとして利⽤される ⁃ セグメンテーション等、他のタスクでも利⽤される

ILSVRC n クラス分類タスクのエラー率（top5 error）の推移 hCp://image-net.org/challenges/talks_2017/ILSVRC2017_overview.pdf AlexNet ZFNet SENet ResNet GooLeNet
Ensemble

Ensemble 0.051 Human ︖︖︖

⼈間のエラー率5.1%︖ n そもそも⼈間のエラー率は0%なのでは︖ ⁃ No, ImageNetがどうやって作成されたかに関係 n ImageNetデータセットの作成⼿順 ⁃ WordNetを元に1000クラスを定義
⁃ 検索エンジンで各クラスの画像を収集 ⁃ クラウドワーカーが各画像とクラスが対応しているか否かのバイナリ判定 n ImageNetのタスク ⁃ 画像が与えられ、1000クラスから1つのクラスを選択 h"p://karpathy.github.io/2014/09/02/what-i-learned-from-compe?ng-against-a-convnet-on-imagenet/

⼈間のエラー率5.1%︖ n “1 smart, trained and highly education human being
performed at that error rate” ―― https://amundtveit.com/tag/imagenet/ n Andrej Karpathyさん (Stanford→OpenAI→Tesla) hCps://github.com/karpathy

Karpathyさんのエラー率5.1までの道のり n 2014年のGoogLeNetの達成精度 (top5 error 6.7%) から⼈間との⽐較をすべきと考えた n 専⽤のアノテーションツールを作成
⁃ ILSVRCに従事しているラボメンでも 1000クラスから5クラス選択することは⾮常に難しい n GoogLeNetの結果を利⽤して、候補を100クラスに限定 ⁃ それでも難しくラボの熟練ラベラーでも13〜15%のエラー率 n ⾃分が訓練データを⽤い、”苦痛を伴う⻑時間の学習”を経て、じっくりアノテーションするのが効率的と気づいた ⁃ train on 500 validation images -> 1500 test images ⁃ テストエラー5.1%を達成︕ • ⽝の品種に詳しくなった︕ n 上記のように、エラー率5.1%は天才がかなり頑張った結果 ⁃ とはいえCNNの学習時間に⽐べるとまだ⾜りないという考え⽅も

Ensemble

Before AlexNet n Neocognitron ⁃ 脳の視覚野に関する知⾒を元に考案 • 単純型細胞＝特徴抽出を⾏う畳み込み層 • 複雑型細胞︓位置ずれを吸収するプーリング層
⁃ ⾃⼰組織化による特徴抽出 K. Fukushima and S. Miyake, "Neocognitron: A new algorithm for paCern recogniTon tolerant of deformaTons and shiUs in posiTon," in PaCern RecogniTon, 1982.

Before AlexNet n Neocognitronの活性化関数は実はReLU K. Fukushima and S. Miyake, "Neocognitron:
A new algorithm for paCern recogniTon tolerant of deformaTons and shiUs in posiTon," in PaCern RecogniTon, 1982.

Before AlexNet n LeNet ⁃ 逆誤差伝搬法による学習 ⁃ ⽂字認識で成功をおさめる ⁃ 全体的なアーキテクチャは既に完成
Y. LeCun, L. BoCou, Y. Bengio, and P. Haﬀner, "Gradient-based learning applied to document recogniTon," in Proceedings of the IEEE, 1998.

Before AlexNet n 巷のLeNetはLeNetではない Y. LeCun, L. BoCou, Y. Bengio,
and P. Haﬀner, "Gradient-based learning applied to document recogniTon," in Proceedings of the IEEE, 1998. 出⼒チャネル⼊⼒チャネル Sparseな畳み込み︕

AlexNet n 2012年のILSVRC優勝モデル ⁃ Rectiﬁed Linear Units (ReLU) ⁃ Local
Response Normalization (LRN) （最近は使われない） ⁃ Overlapping pooling (3x3 max pool, stride =2) ⁃ Dropout（全結合層） ⁃ SGD + momentum, weight decay, learning rate decay A. Krizhevsky, I. Sutskever, and G. E. Hinton, "Imagenet classiﬁcaTon with deep convoluTonal neural networks," in Proc. of NIPS, 2012. 既にほぼ現在のアーキテクチャの姿

AlexNet n 巷のAlexNetは（ｒｙ ⁃ いくつかの畳み込み層は、チャネル⽅向に分割され 2つのGPUでそれぞれ独⽴に畳み込みが⾏われる「grouped convolution」となっている A. Krizhevsky,
I. Sutskever, and G. E. Hinton, "Imagenet classiﬁcaTon with deep convoluTonal neural networks," in Proc. of NIPS, 2012.

ZFNet n 2013年のILSVRC優勝モデル ⁃ CNNの可視化を⾏い、AlexNetの2つの問題を明らかにし、改良 • 1つ⽬の畳み込みフィルタのカーネルサイズが⼤きく⾼周波と低周波の情報を取得するフィルタばかりになっている • Stride
= 4により2層⽬の特徴マップにエイリアシングが発⽣

GoogLeNet n 2014年のILSVRC優勝モデル ⁃ Inceptionモジュール ⁃ Global Average Pooling (GAP)
⁃ Auxiliary loss • ネットワークを途中で分岐させ、そこで分類を⾏うロスを追加 →学習の効率化＋正則化

GoogLeNet n Inceptionモジュール ⁃ ⼩さなネットワークを1つのモジュールとして定義しモジュールの積み重ねでネットワークを構成 • 3x3と複数の1x1畳み込みを1つのモジュールとする Network In
Network (NIN) に起源 ⁃ Sparseな畳み込みにより、表現能⼒とパラメータ数のトレードオフを改善 ⁃ 1x1畳み込みによる次元削減 concat conv 1x1 conv 1x1 maxpool conv 1x1 conv 3x3 conv 5x5 conv 1x1 concat maxpool conv 1x1 conv 3x3 conv 5x5 Inceptionモジュール（次元削減あり） Inceptionモジュール（naive）

Sparseな畳み込み︖ n 通常の畳み込みのパラメータ数＝N×M×K2 ⁃ N: ⼊⼒チャネル数、M: 出⼒チャネル数、K2: カーネルサイズ n （例）グループ化畳み込みのパラメータ数＝N×M×K2
/ G ⁃ G: グループ数⼊⼒チャネル数出⼒チャネル数カーネルサイズグループ数2の例 ※簡単のためbiasは無視 KxK畳み込みのパラメータ

Sparseな畳み込みとしてのInceptionモジュール concat maxpool conv 1x1 conv 3x3 conv 5x5 Inceptionモジュール（naive）
⼊⼒チャネル数出⼒チャネル数カーネルサイズ 5x5 3x3 1x1 5x5の畳み込みを少数パラメータで近似 ※簡単のためmax poolを無視

Sparseな畳み込みとしてのInceptionモジュール concat conv 1x1 conv 1x1 maxpool conv 1x1 conv
3x3 conv 5x5 conv 1x1 Inceptionモジュール（次元削減あり） 1x1畳み込み Inceptionモジュール ※簡単のためmax poolを無視 1x1畳み込みの次元削減で更にパラメータを削減 naïveバージョン

GoogLeNet n Global Average Pooling (GAP) ⁃ 特徴マップのサイズと同じaverage pooling ⁃
NINで最初に利⽤された • NINではチャネル数をクラス数に調整してからGAP • GoogLeNet以降では、GAPの後に全結合層を付ける ⁃ 全結合層を減らすことでパラメータ数を削減 W H C=クラス数 1 1 HxWxCの特徴マップクラス数 GAP soUmax

Inception-v? n Inception-v2,3 ⁃ Batch normalization ⁃ 5x5 -> 3x3
(x2) ⁃ nxn -> nx1 + 1xn n Inception-v4 ⁃ 3種類のInceptionを使い分け n Inception-ResNet-v1,2 ⁃ 後述のショートカット機構の導⼊ C. Szegedy, V. Vanhoucke, S. Ioffe, and J. Shlens, "Rethinking the inception architecture for computer vision," in Proc. of CVPR, 2016. C. Szegedy, S. Ioffe, V. Vanhoucke, and A. A. Alemi, "Inception-v4, inception-resnet and the impact of residual connections on learning," in Proc. of AAAI, 2017.. = IncepTon-v3

VGGNet n 2014年のILSVRCで2位となったモデル n シンプルなモデルの設計⽅針 ⁃ 3x3畳み込み層（＋全結合層）のみを利⽤ • 5x5畳み込みと3x3畳み込み×2は同じreceptive ﬁeldを持つ
• 計算量は 25:18 ⁃ 同⼀出⼒チャネルの畳み込み層を重ねた後にプーリングにより特徴マップを半分にしつつチャネル数を倍増 n まずは浅いネットワークを学習し、畳み込み層を追加して ﬁne-tuningすることで深いネットワークを学習 ⁃ Xavierの初期化を利⽤することで事前学習は不要に conv 5x5 conv 3x3 - conv 3x3

Residual Networks (ResNet) n 2015年のILSVRC優勝モデル n Residualモジュール（ショートカット機構）の導⼊→後述 n Batch normalizationの導⼊
⁃ ネットワーク内の共変量シフトを軽減 • 学習バッチ毎に、⾃分より前の層のパラメータ更新により、⼊⼒される特徴マップの分布が⼤きく変わる n Global Average Pooling (GAP) の利⽤ ⁃ 全結合層の削減によるパラメータ数削減 n Heの初期化の利⽤ ⁃ ReLUを考慮したパラメータの初期化 n ショートカットを展開していくと複数の深さの違うネットワークのアンサンブルとなっている [1] [1] A. Veit, M. Wilber, and S. Belongie, "Residual networks behave like ensembles of relatively shallow networks," in Proc. of NIPS, 2016.

Residual Networks (ResNet) n Residualモジュール ⁃ ある処理の出⼒ F(x) を次の層に渡すのではなく⼊⼒xをショートカットし、
F(x) + x を次の層に渡す処理単位 n Backpropagation時にショートカットを通じて直接勾配が下層に伝わることで深いネットワークでも効率的な学習が可能 some network F(x) conv 3x3, 64 conv 3x3, 64 ショートカット + + 64-dim 64-dim 抽象的なresidualモジュール具体例

Residual Networks (ResNet) n 全体の構造 ⁃ Residualモジュールのスタック ⁃ ダウンサンプルする際に
チャネル数を2倍に（VGGと同じ） ⁃ チャネル数が違うショートカットは zero-padingか conv 1x1で調整 Resモジュール 3x3, 64 Resモジュール 3x3, 128 Resモジュール 3x3, 256 Resモジュール 3x3, 512 GAP 全結合層 conv 3x3, 64 maxpool ×3 ×4 ×6 ×3 conv 3x3, 64 conv 3x3, 64 + 64-dim 64-dim 114x114x64 224x224x3 56x56x64 28x28x128 14x14x256 7x7x 512 1000

Bottleneckバージョン n 1x1畳み込みで次元削減、その後3x3畳み込みを⾏った後、更に1x1畳み込みで次元を復元 n 同等のパラメータ数で表現能⼒を改善 ⁃ 深くもなる n パラメータ数↓
conv 3x3, 64 conv 3x3, 64 + 64-dim 64-dim conv 1x1, 256 conv 3x3, 64 + conv 1x1, 64 256-dim 256-dim ⼊⼒チャネル数出⼒チャネル数カーネルサイズ通常 Bottleneck版

Squeeze-and-Excitation Networks (SENet) n 2017年のILSVRC優勝モデル n チャネル毎の特徴マップを適応的に重み付けする SE Blockを導⼊ ⁃
Globalなコンテキストを取得するsqueeze step ⁃ チャネル間の依存関係を抽出するexcitation step n どんなネットワークにも導⼊可能 ⁃ ResNet, ResNeXt, Inception, Inception-ResNet-v2等に導⼊し有効性を確認 conv 1x1 global pooling ReLU conv 1x1 sigmoid scaling HxWxC 1x1xC 1x1xC/r 1x1xC HxWxC

Residual まとめ AlexNet VGGNet GoogLeNet ResNet Batch Normalization LeNet Neocognitron
Back propagation Heの初期化 Glorotの初期化 conv 1x1 Dropout ReLU 1990s 2012 2013 2014 2015 NIN Global Average Pooling

まとめ AlexNet VGGNet GoogLeNet ResNet Batch Normalization LeNet Neocognitron Back
propagation Heの初期化 Glorotの初期化 conv 1x1 Dropout ReLU 1990s 2012 2013 2014 2015 NIN Global Average Pooling Residual

最新のCNN改良⼿法

最新のCNN改良⼿法 n Residualモジュールの改良 n 独⾃モジュールの利⽤ n 独⾃マクロアーキテクチャの利⽤ n 正則化 n
⾼速化を意識したアーキテクチャ n アーキテクチャの⾃動設計

Residualモジュールの改良 n Residualモジュールをゴニョゴニョする n WideResNet ⁃ 深くするより、幅（チャネル数）を⼤きくして（相対的に）浅いネットワークのほうが精度・学習速度が優秀 n PyramidNet
⁃ サウンサンプルするタイミングでチャネル数を 2倍にするのではなく、全てのresidualモジュールで徐々にチャネル数を増加させる • チャネル数を2倍にするresidualモジュールにネットワークが過度に依存してしまうのを防ぐ

Residualモジュールのベストプラクティス n 初代ResNet ⁃ conv - bn - relu -
conv - bn - add - relu n pre-act ResNet（add→ReLUだとショートカットの効果が半減） ⁃ bn - relu - conv - bn - relu - conv - add n PyramidNet（ReLUを減らす、BN追加） ⁃ bn - conv - bn - relu - conv - bn - add n WideResNet（dropoutがタスクによって効果がある） ⁃ bn - relu - conv - bn - relu - dropout - conv – add n pre-actで、ReLUを1つ削除したPyramidNet系が良い（bnの追加は︖個⼈の意⾒です）

ResNeXt n ResNetの処理ブロックを”Network-in-Neuron” に置き換えたもの n (a)と(b)は等価表現 conv 1x1, 4 conv
3x3, 4 conv 1x1, 256 conv 1x1, 4 conv 3x3, 4 conv 1x1, 256 conv 1x1, 4 conv 3x3, 4 conv 1x1, 256 ... + 256-dim 256-dim conv 1x1, 128 conv 3x3, 128, g=32 conv 1x1, 256 256-dim 256-dim + (a) (b) Ti (x) grouped convolution

ResNeXt n ResNeXtとresidualモジュール（bottleneckバージョン） n ResNeXtのモジュールは、bottleneckバージョンの residualモジュールとみなすことができる ⁃ Grouped convによりパラメータ数と表現能⼒のトレードオフを改善
conv 1x1, 128 conv 3x3, 128, g=32 conv 1x1, 256 256-dim 256-dim + 次元削減次元復元 3x3畳み込み（grouped）

Xception n 空間⽅向のとチャネル⽅向に独⽴に畳み込みを⾏う separable畳み込みを活⽤ ⁃ Depthwise畳み込み（空間⽅向） • 特徴マップに対しチャネル毎に畳み込み • 計算量︓H・W・N・K2・M
(M=N) H・W・K2・N ⁃ Pointwise畳み込み（チャネル⽅向） • 1x1の畳み込み • 計算量︓H・W・N・K2・M (K=1) H・W・N・M ⁃ Depthwise + pointwise • 計算量︓H・W・N・(K2 + M) ≒ H・W・N・M (M >> K2) n 通常のKxK畳み込みから⼤幅に計算量を削減 42 W H W H N 1 1 M W H W H N K K N

Xception n Separable畳み込みのパラメータ n 通常の畳み込み n Separable畳み込み⼊⼒チャネル数出⼒チャネル数カーネルサイズ
Depthwise畳み込み Pointwise畳み込み

Xception n 全体アーキテクチャ n モジュール構造 ⁃ relu - sep -
bn - relu - sep - bn - relu - sep - bn - add F. Chollet, "XcepTon: Deep learning with depthwise separable convoluTons," in Proc. of CVPR, 2017. （sep: separable畳み込み）

Residual Networks of Residual Networks (RoR) n 複数のResidualモジュールを1つのモジュールとみなしその間にショートカットを作成する K.
Zhang, M. Sun, T. X. Han, X. Yuan, L. Guo, and T. Liu, "Residual networks of residual networks: MulTlevel residual networks," in TCSVT, 2017.

FractalNet n 再帰的に定義されるネットワーク ⁃ パスをdropするdropout的な学習 • 1カラムだけ残す or 各パスをランダムにdrop ⁃
浅い列のパスがResNetのショートカットのような効果 conv, bn, relu G. Larsson, M. Maire, and G. Shakhnarovich, "Fractalnet: Ultra-deep neural networks without residuals," in Proc. ofICLR, 2017.

DenseNet (CVPRʼ17 best paper) n Dense blockをtransition layerでつないだ構造 conv Dense
block Dense block Dense block fc Input image Result G. Huang, Z. Liu, K. Q. Weinberger, and L. Maaten, “Densely connected convoluTonal networks", in Proc. of CVPR, 2017. Dense block Transitionレイヤ

Dense Block n 同⼀ブロック内の⾃分より前の層全ての出⼒を各層への⼊⼒とする処理ブロック ⁃ ⼊⼒k0 、総数l、各層の出⼒k とすると出⼒はk0 +l×k
⼊⼒: k0 , 出⼒: k ⼊⼒: k0 +k, 出⼒: k ⼊⼒: k0 +2k, 出⼒: k ⼊⼒: k0 +3k, 出⼒: k bn - relu – conv 3x3 G. Huang, Z. Liu, K. Q. Weinberger, and L. Maaten, “Densely connected convoluTonal networks", in Proc. of CVPR, 2017. ⼊⼒: k0 出⼒: k0 +4k

Dense Block (Bottleneckバージョン) n k0 >> k なので通常の畳み込みよりも計算量が少ないが conv 1x1で次元削減を⾏うことで更に計算量を削減
⼊⼒: k0 , 中間出⼒: 4k, 出⼒: k ⼊⼒: k0 +k, 中間出⼒: 4k, 出⼒: k ⼊⼒: k0 +2k, 中間出⼒: 4k, 出⼒: k ⼊⼒: k0 +3k, 中間出⼒: 4k, 出⼒: k bn - relu - conv 1x1 bn - relu - conv 3x3 G. Huang, Z. Liu, K. Q. Weinberger, and L. Maaten, “Densely connected convoluTonal networks", in Proc. of CVPR, 2017. ⼊⼒: k0 出⼒: k0 +4k

Transition Layer n Transitionレイヤの基本的な役割はダウンダンプリング ⁃ conv 1x1の⼊出⼒チャネル数は k0+l×k n Compressionバージョンのtransitionレイヤ
⁃ conv 1x1の出⼒チャネル数を θ(k0+l×k) とす ⁃ θ≦1、論⽂では0.5 n 前述のbottleneck構造と圧縮するtransitionレイヤを利⽤する場合が精度とパラメータ数のトレードオフで優秀 (DenseNet-BC) conv Dense block Dense block Dense block fc Input image Result Transitionレイヤ bn – conv 1x1 – avepool 2x2

Deep Networks with Stochastic Depth n ResNetは⾮常にdeepであることが学習を難しくしている ⁃ バッチ毎にresidual unitをランダムにdropすることで
「期待値で⾒たときの深さ」を浅くする ⁃ Drop確率は出⼒に近いほど⾼くなるように線形に増加 n テスト時はdropせずに、drop率で出⼒をスケーリング ⁃ 通常のResNetと⽐較して、学習が早く、⾼精度 G. Huang, Y. Sun, Z. Liu, D. Sedra, and K. Weinberger, "Deep networks with stochasTc depth," in Proc. of ECCV, 2016. Residual モジュール Drop率 Input Output

Swapout n Residualモジュールの出⼒ H(x) = F(x) + xについて ⁃ F(x)
および x をそれぞれ個別にdropするdropout ⁃ 0, x, F(x), F(x) + x の4パターンの出⼒ • Dropoutだと 0 か F(x) + x • モジュールの途中にいれると x か F(x) + x n 推論時もswapoutを有効にしたまま複数回forwardを⾏い、それらの平均を推論結果とする形でないと精度がでない S. Singh, D. Hoiem, and D. Forsyth, "Swapout: Learning an ensemble of deep architectures," in Proc. of NIPS, 2016.

Shake-Shake Regularization n 特徴マップレベルでのデータ拡張 ⁃ 画像レベルではcroppingをすることで画像内の物体の⽐率を変化させることで、その変化にロバストに ⁃ 特徴マップレベルでも同じことができないか︖ n
モジュール内でネットワークを分岐させ画像レベルで各分岐の出⼒をランダムな⽐率（α∈[0, 1]）で混合する ⁃ Backward時には違う⽐率βを利⽤する n CIFAR-10/100でのSotA conv 3x3 conv 3x3 conv 3x3 conv 3x3 + * * αl 1−αl conv 3x3 conv 3x3 conv 3x3 conv 3x3 + * * βl 1− βl conv 3x3 conv 3x3 conv 3x3 conv 3x3 + * * 0.5 0.5 Forward Backward Test

ShakeDrop n 分岐させずに特徴マップに対する外乱を加えられないか ⁃ PyramidNetとShakeShakeの統合 ⁃ PyramidNetにおいてdropさせる代わりに ShakeShakeのような外乱を加える n α∈[1,1]、β∈[0,1]、チャネルレベルの外乱が最も良い
n CIFAR-10/100でのSotA conv 3x3 conv 3x3 * * b l 1− b l Forward αl * + conv 3x3 conv 3x3 * * b l 1− b l Backward βl * + conv 3x3 conv 3x3 * + Test E[b l +(1− b l )αl ]

ShakeDrop n 分岐させずに特徴マップに対する外乱を加えられないか ⁃ PyramidNetとShakeShakeの統合 ⁃ PyramidNetにおいてdropさせる代わりに ShakeShakeのような外乱を加える n α∈[1,1]、β∈[0,1]、チャネルレベルの外乱が最も良い
n CIFAR-10/100でのSotA conv 3x3 conv 3x3 * * b l 1− b l Forward αl * + conv 3x3 conv 3x3 * * b l 1− b l Backward βl * + conv 3x3 conv 3x3 * + Test E[b l +(1− b l )αl ] 少ないパラメータでこれを超えたやつがまた出るらしい

Random Erasing n データ拡張の⼀種 ⁃ アーキテクチャではないが紹介 n ⼀定確率で、訓練画像のランダムな領域をランダムなピクセルでマスク n
汎化能⼒を⾼めテストエラーを軽減 ⁃ 物体検出等でも効果あり

Fire module (SqueezeNet) n 戦略 ⁃ 3x3の代わりに1x1のフィルタを利⽤する ⁃ 3x3への⼊⼒となるチャネル数を少なくする n
Inceptionモジュールの特殊系とみなすこともできる 60 conv 1x1, s1x1 conv 1x1, e1x1 conv 3x3, e3x3 concat Fire module 32 128 128 256 256 Squeeze layer Expand layer

SqueezeNet n パラメータ数 n 通常の畳み込み n Fire module Squeeze layer
Expand layer ⼊⼒チャネル数出⼒チャネル数カーネルサイズ 3x3 1x1

MobileNet n Xceptionと同様にseparable畳み込みを利⽤した軽量なネットワーク n Xceptionとの違い ⁃ depthwiseとpointwiseの間にBNとReLUが⼊っている • Xceptionの論⽂では⼊れないほうが精度が良いとの主張
⁃ ショートカットは利⽤してない通常の畳み込み MobileNetの1要素 A. Howard et al., "Mobilenets: Eﬃcient convoluTonal neural networks for mobile vision applicaTons," in arXiv:1704.04861, 2017.

アーキテクチャの⾃動設計 n ネットワーク構造を進化的アルゴリズム最適化、250 GPUs [1] n ネットワーク構造を出⼒するRNNをREINFORCEアルゴリズムで学習、 800 GPUs 28days
[2], 500 GPUs 4 days [4] n 階層的なネットワーク構造を進化的アルゴリズムで最適化、~200 GPUs [3] n [4] をSequential Model-Based Optimization (SMBO)で最適化、50 GPUs [5] [1] E. Real, S. Moore, A. Selle, S. Saxena, Y. Suematsu, J. Tan, Q. Le, and A. Kurakin, "Large- Scale EvoluTon of Image Classiﬁers," in Proc. of ICLR, 2017. [2] B. Zoph and Q. V. Le, "Neural architecture search with reinforcement learning," in arXiv:1611.01578, 2016. [3] H. Liu, K. Simonyan, O. Vinyals, C. Fernando, and K. Kavukcuoglu, "Hierarchical representaTons for eﬃcient architecture search," in arXiv:1711.00436, 2017. [4] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, "Learning transferable architectures for scalable image recogniTon," in arXiv:1707.07012, 2017. [5] C. Liu, B. Zoph, J. Shlens, W. Hua, L. Li, L. Fei-Fei, A. Yuille, J. Huang, and K. Murphy, "Progressive Neural Architecture Search," in arXiv:1712.00559, 2017.

アーキテクチャの⾃動設計 n ネットワーク構造を進化的アルゴリズム最適化、250 GPUs [1] n ネットワーク構造を出⼒するRNNをREINFORCEアルゴリズムで学習、 800 GPUs 28days
[2], 500 GPUs 4 days [4] n 階層的なネットワーク構造を進化的アルゴリズムで最適化、~200 GPUs [3] n [4] をSequential Model-Based Optimization (SMBO)で最適化、50 GPUs [5] [1] E. Real, S. Moore, A. Selle, S. Saxena, Y. Suematsu, J. Tan, Q. Le, and A. Kurakin, "Large- Scale EvoluTon of Image Classiﬁers," in Proc. of ICLR, 2017. [2] B. Zoph and Q. V. Le, "Neural architecture search with reinforcement learning," in arXiv:1611.01578, 2016. [3] H. Liu, K. Simonyan, O. Vinyals, C. Fernando, and K. Kavukcuoglu, "Hierarchical representaTons for eﬃcient architecture search," in arXiv:1711.00436, 2017. [4] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, "Learning transferable architectures for scalable image recogniTon," in arXiv:1707.07012, 2017. [5] C. Liu, B. Zoph, J. Shlens, W. Hua, L. Li, L. Fei-Fei, A. Yuille, J. Huang, and K. Murphy, "Progressive Neural Architecture Search," in arXiv:1712.00559, 2017. Google Brain Google Brain Deep Mind Google Brain Google **

Learning Transferable Architectures for Scalable Image Recognition n ネットワーク構造を出⼒するRNNをREINFORCEアルゴリズムで学習
n 全体の構造とモジュール内で利⽤できる構成要素が決まっている（これの元となった論⽂ではそうではない） ] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, "Learning transferable architectures for scalable image recogniTon," in arXiv:1707.07012, 2017. ←全体の構造 ↓利⽤できる構成要素（計算量の⼩さいものが多い）

Learning Transferable Architectures for Scalable Image Recognition n 結果 n
Sepばっかり（⾒た⽬上の計算量が⼩さい→実測は︖） ] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, "Learning transferable architectures for scalable image recogniTon," in arXiv:1707.07012, 2017.

Learning Transferable Architectures for Scalable Image Recognition n つよい ]
B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, "Learning transferable architectures for scalable image recognition," in arXiv:1707.07012, 2017.

各アーキテクチャの⽐較

アーキテクチャの⽐較 n ⼀般物体認識のデータセット ⁃ CIFAR10(10クラス，５万枚学習，１万枚テスト) ⁃ CIFAR100(100クラス，５万枚学習，１万枚テスト) ⁃ ImageNet(1000クラス，128枚学習，5万枚テスト) 画像サイズ︓32x32
画像サイズ︓バラバラ(224x224などにリサイズ) h"p://karpathy.github.io/assets/cnntsne.jpeg h"ps://www.cs.toronto.edu/~kriz/cifar.html CIFAR10/100 ImageNet

最新⼿法の実装 n Caﬀe 学習環境評価環境学習済みモデル公開コード AlexNet ありあり
あり https://github.com/BVLC/caffe/tree/master/model s/bvlc_alexnet VGG ありありあり https://github.com/ruimashita/caffe-train GoogLeNet ありありあり https://github.com/BVLC/caffe/tree/master/model s/bvlc_googlenet ResNet なしありあり https://github.com/KaimingHe/deep-residual- networks MobleNet なしありあり https://github.com/shicai/MobileNet-Caffe SqueezeNet ありありあり https://github.com/DeepScale/SqueezeNet DenseNet ありありなし https://github.com/liuzhuang13/DenseNetCaffe

学習環境評価環境学習済みモデル公開コード AlexNet なしありなし https://github.com/ethereon/caffe-tensorflow VGG
なしありなし https://github.com/machrisaa/tensorflow-vgg https://www.cs.toronto.edu/~frossard/post/vgg16/ GoogLeNet なしありあり https://www.tensorflow.org/versions/master/tutori als/image_recognition ResNet ありありあり https://github.com/ry/tensorflow-resnet MobleNet ありありあり https://github.com/Zehaos/MobileNet SqueezeNet ありありあり https://github.com/vonclites/squeezenet DenseNet ありありなし https://github.com/YixuanLi/densenet-tensorflow 最新⼿法の実装 n Tensorﬂow

学習環境評価環境学習済みモデル公開コード AlexNet ありありあり https://github.com/pytorch/examples/tree/master /imagenet
VGG ありありあり https://github.com/pytorch/examples/tree/master /imagenet GoogLeNet ありありあり https://github.com/pytorch/examples/tree/master /imagenet ResNet ありありあり https://github.com/pytorch/examples/tree/master /imagenet MobleNet ありありあり https://github.com/marvis/pytorch-mobilenet SqueezeNet あり https://github.com/pytorch/vision DenseNet ありありあり https://github.com/pytorch/vision https://github.com/bamos/densenet.pytorch 最新⼿法の実装 n pytorch

学習環境評価環境学習済みモデル公開コード AlexNet ありありあり https://github.com/chainer/chainer/tree/master/e xamples/imagenet
VGG なしありあり https://github.com/pytorch/examples/tree/master /imagenet GoogLeNet ありありあり https://github.com/chainer/chainer/tree/master/e xamples/imagenet ResNet ありなしあり https://github.com/yasunorikudo/chainer- ResNet/tree/master/v2 https://github.com/chainer/chainer/tree/master/e xamples/imagenet MobleNet SqueezeNet https://github.com/ejlb/squeezenet-chainer DenseNet ありありあり https://github.com/yasunorikudo/chainer- DenseNet 最新⼿法の実装 n chainer

最新⼿法の実装 n 各種学習済みモデルの⽐較（pytorch） https://github.com/Cadene/pretrained-models.pytorch Model Version Acc@1 Acc@5 NASNet-A-Large Tensorflow
82.693(82.566) 96.163(96.086) InceptionResNetV2 Tensorflow 80.4(80.170) 95.3(95.234) InceptionV4 Tensorflow 80.2(80.062) 95.3(94.926) ResNeXt101_64x4d Torch7 79.6(78.956) 94.7(94.252) ResNeXt101_32x4d Torch7 78.8(78.188) 94.4(93.886) ResNet152 Pytorch 78.428 94.110 FBResNet152 Torch7 77.84(77.386) 93.84(93.594) DenseNet161 Pytorch 77.560 93.798 InceptionV3 Pytorch 77.294 93.454 DenseNet201 Pytorch 77.152 93.548 ResNet101 Pytorch 77.438 93.672 DenseNet169 Pytorch 76.026 92.992 ResNet50 Pytorch 76.002 92.980 DenseNet121 Pytorch 74.646 92.136 VGG19_BN Pytorch 74.266 92.066

最新⼿法の実装 n 学習環境の実装（Chainer） n 各種⼿法を同条件で学習・評価が可能 ⁃ https://github.com/takedarts/resnetfamily ⁃ https://github.com/nutszebra/chainer_image_recognition n
本⽐較実験では上記２つのgithubのコードを参考に⾏う

学習条件 CIFAR10/100 Imagenet 学習データ数１０万枚１２８万枚 Data augmentation 位置ずれ，反転（上下左右に４ピクセルのマージンを付与
し，３２x３２をランダムにクロップ）位置ずれ，反転（２５６x２５６にリサイズし，２２４x２２４をランダムにクロップ）エポック数３００エポック９０エポック学習最適化法モーメンタムSGD （モーメンタム:０．９) モーメンタムSGD （モーメンタム:０．９) 学習係数スケジュール初期値０．１，１５０エポック時，２２５エポック時に０．１倍初期値０．１，３０エポック毎に０．１倍バッチサイズ１２８２５６

学習環境 n CIFAR10/100 (single GPUで学習・評価） GPU搭載ワークステーション︓９７台各端末のスペック Quadoro P5000 Xeon
E5-2620 Mem. 16GB Infiniband Ubuntu 16.04 chainer 3.0 chainer MN 1.0 opencv 3.2.0 nvidia-docker singularity

学習環境 n Imagenet（８GPUで学習・評価） DGX-1 (Tesla P100 x 8) スペック Tesla
P100 x8 Xeon E5-2698 Mem. 512GB NVLink

⽐較アーキテクチャアーキテクチャ名層数データベース AlexNet 8 ImageNet VGG 16 CIFAR10/100，ImageNet
GoogLeNet 22 CIFAR10/100，ImageNet SqueezeNet 10 CIFAR10/100，ImageNet ResNet 18/50/101 CIFAR10/100，ImageNet WideResNet 101(k=4) CIFAR10/100 PyramidNet 101(α=84) CIFAR10/100 FractalNet 20(Cols=3) CIFAR10/100 DenseNet 72(k=12) CIFAR10/100，ImageNet SENet 50(r=4) CIFAR10/100

CIFAR10での誤差（学習データ） 0.0001 0.001 0.01 0.1 1 10 1 51 101
151 201 251 誤差エポック数 Train loss VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideRexNet・PyramidNetが最も誤差が低い SENetは誤差が上昇しており，過学習気味

CIFAR10での誤差（テストデータ） 0.1 1 10 1 51 101 151 201 251
誤差エポック数 Test loss VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideRexNetが最も誤差が低い FractalNetは学習後期でもばらつきが⼤きい GoogLeNetは誤差が上昇（過学習）

CIFAR10での精度（学習データ） 0.7 0.75 0.8 0.85 0.9 0.95 1 1 51
101 151 201 251 精度エポック数 Tran accuracy VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideResNet・PyramidNet・DenseNetなど幅を持つアーキテクチャはほとんど同精度

CIFAR10での精度（テストデータ） 0.7 0.75 0.8 0.85 0.9 0.95 1 1 51
101 151 201 251 精度エポック数 Test accuracy VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideResNet・PyramidNet・DenseNetなど幅を持つアーキテクチャはほとんど同精度

CIFAR100での誤差（学習データ） 0.001 0.01 0.1 1 10 1 51 101 151
201 251 誤差エポック数 Train loss VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet CIFAR10と同様にWideResNet・PyramidNetの誤差が低い

CIFAR100での誤差（テストデータ） 0 0.5 1 1.5 2 2.5 3 3.5 4
4.5 5 1 51 101 151 201 251 誤差エポック数 Test loss VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideResNetが最も誤差が低い FractalNetは学習後期でもばらつきが⼤きい GoogLeNetは誤差が上昇（過学習）

CIFAR100での精度（学習データ） 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
0.9 1 1 51 101 151 201 251 精度エポック数 Tran accuracy VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideResNet・PyramidNet・DenseNetなど幅を持つアーキテクチャはほとんど同精度

CIFAR100での精度（テストデータ） 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
0.9 1 1 51 101 151 201 251 精度エポック数 Test accuracy VGG GoogLeNet SqueezeNet ResNet101 WideResNet PyramidNet FractalNet DenseNet SENet WideResNetが最も精度が⾼い

CIFAR10/100での精度アーキテクチャ名エラー率[%] 学習時間[h] CIFAR10 CIFAR100 VGG 6.0 27.4 2.9
GoogLeNet 9.3 31.7 4.6 SqueezeNet 10.8(18.0) 36.0 1.8 ResNet101 5.3(6.5) 25.9 9.2 WideResNet 4.8(4.0) 20.7 19.6 PyramidNet 4.3(3.8) 22.0 15.6 ResNeXt 4.5(3.6) 20.7 27 FractalNet 5(4.6) 26.0 5.1 DenseNet 5.1(3.8) 24.6 19.6 SENet 4.8 24.2 36.7 WideResNet・PyramidNetは精度が良いが，学習時間はResNetの1.5-2倍程度

CIFAR10での正則化⼿法の⽐較（学習誤差） 0.0001 0.001 0.01 0.1 1 10 1 51 101
151 201 251 301 351 401 451 501 551 誤差エポック数 Train loss ResNet101 Stochastic Depth Shake-Shake Swapout ResNet101+cutout Shake-Shake+cutout 学習誤差はResNet101（正則化なし）が最も低い

CIFAR10での正則化⼿法の⽐較（テスト誤差） 0.1 1 10 1 51 101 151 201 251
301 351 401 451 501 551 誤差エポック数 Test loss ResNet101 Stochastic Depth Shake-Shake Swapout ResNet101+cutout Shake-Shake+cutout テスト誤差はShake-Shake，Shake-Shake+cutout（正則化あり）が最も低い ResNet101は過学習している

CIFAR10での正則化⼿法の⽐較（精度︓学習データ） 0.7 0.75 0.8 0.85 0.9 0.95 1 1 51
101 151 201 251 301 351 401 451 501 551 精度エポック数 Tran accuracy ResNet101 Stochastic Depth Shake-Shake Swapout ResNet101+cutout Shake-Shake+cutout ResNet・Swapoutが最も⾼い（過学習している）

CIFAR10での正則化⼿法の⽐較（精度︓テストデータ） 0.7 0.75 0.8 0.85 0.9 0.95 1 1 51
101 151 201 251 301 351 401 451 501 551 精度エポック数 Tran accuracy ResNet101 Stochastic Depth Shake-Shake Swapout ResNet101+cutout Shake-Shake+cutout Shake-Shake+cutout（正則化あり）の最も精度が⾼い

CIFAR10/100での正則化⼿法の⽐較正則化⼿法エラー率[%] 学習時間[h] CIFAR10 CIFAR100 ResNet101 5.3(6.5) 25.9 13.2
Stochastic Depth 5.2 23.5 12 Shake-Shake 3.0 18.4 77.8 Swapout 6.0 26.8 42.0 ResNet101+cutout 3.5 25.0 13.1 Shake-Shake+cutout 2.7 17.5 76.5 Shake-Shakeは正則化として効果が⾼い（ただし，学習時間が⼤幅に増加） Cutoutは汎化性向上に効く

0 1 2 3 4 5 6 7 8 1
51 誤差エポック数 Train loss AlexNet DenseNet(20層) ResNet152 ResNet18 ResNet34 SqueezeNet(1.1) VGG16 Imagenetでの⽐較（学習誤差） ResNet系のアーキテクチャは誤差が低い

Imagenetでの⽐較(TOP1) 0 10 20 30 40 50 60 70 80
90 100 1 51 精度エポック数 Val Accuracy(Top1) AlexNet DenseNet(20層) ResNet152 ResNet18 ResNet34 SqueezeNet(1.1) VGG16

Imagenetでの⽐較(TOP5) 0 10 20 30 40 50 60 70 80
90 100 1 51 精度エポック数 Val Accuracy(Top5) AlexNet DenseNet(20層) ResNet152 ResNet18 ResNet34 SqueezeNet(1.1) VGG16

Imagenetでの評価アーキテクチャ名 Top1エラー率[%] Top5エラー率[%] パラメータ数[M] AlexNet 49.9 26.2(16.4) 62.0 VGG16
26.5 8.4(7.3) 138.0 SqueezeNet 44.2 21.3 0.7 Inception-v3 22.8 6.6 22.5 ResNet-18 30.4 10.7 0.2 ResNet-34 26.7 8.6 0.5 ResNet-152 21.9 6.1(3.5) 1.7 DenseNet-201 23.5 6.6 15.0

まとめ（アーキテクチャサーベイより） n 主にアーキテクチャの観点から ⁃ ILSVRC歴代の優勝モデルからCNNの歴史を振り返る ⁃ 近年のCNNをアプローチをもとに分類し、解説 n 全体的なアーキテクチャとしてはほとんどResNet ⁃
DenseNet以外に独⾃の全体的なアーキテクチャの成功例がない n Residualモジュールの改良は、次元削減とsparseな畳み込みを組合せているものがほとんどと⾔える ⁃ 畳み込みのパラメータを削減し、その分深さや幅を⼤きくすることで精度を向上する n データおよびモデル内の正則化は他の⼿法と組合せられる上に効果が⼤きく期待できる ⁃ 学習時は外乱を加えるために複雑なネットワークだが、推論時はそれらを統合したシンプルなネットワークにするとかができないか︖ n 富豪じゃなくてもできるアーキテクチャの⾃動設計に期待

まとめ（⽐較実験より） n 幅をもたせたアーキテクチャの精度は⾼い n 正則化として，Shake-Shakeは効果⾼い n cutoutはシンプルでさらに精度向上に効く

今⽇話せなかったこと n セグメンテーションや物体検出ならではのアーキテクチャ n ⾼速化⼿法

畳み込みニューラルネットワークの研究動向

畳み込みニューラルネットワークの研究動向

More Decks by yu4u

Other Decks in Technology

Featured

Transcript