人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)

人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020) EAGLYS株式会社 AI 勉強会 #7 2020/11/19(Thu) 吉田
慎太郎 @sht_47

EAGLYS株式会社 AI勉強会 1. NAS 入門 2. Out of Distribution【入門編】 3.
Out of Distribution【実践編】画像認識 x 異常検知 4. 安定の可視化手法「Grad-CAM 」 5. 新しい Optimizer 「Adabelief」 6. Federated Learning 入門 7. Saliency Detection最新研究 UCNet ⇦今日

今日の発表内容 - Saliency Detectionとは - Semantic Segmentation の復習 - Semantic
Segmentationの有名手法 FCN と UNet の紹介 - UCNet - 評価指標と結果

Saliency Detectionとは - Semantic Segmentationという分野の1カテゴリーかつ設定がより高次元 - 近年、RGB-D画像の入手が容易になり、RGB-D画像を用いたモデルが注目 - トラッキング、画像抽出、要約動画の作成、動画理解への応用が期待される

UCNetの簡単な紹介 - CVPR2020に採択、CVPR2020のBest Paper Awardにノミネート - オーストラリア国立大学の論文 - RGB-D Saliency
Detectionのタスクで全てのDataset, 全ての指標でSOTA - CVAE(Conditional Variational AutoEncoder)を導入 - Depth Correction Networkと呼ばれるアノテーターの不確かさを考慮したモデル

Semantic Segmentationの基本 Image Classification との違いピクセルごとにクラスを予測 FCN(2014, Jonathan) 15層の3x3 Convで1/32
7x7 Convと1x1Convで4096次元に 1x1 Convで21次元に(VOCのクラス数) Transpose Convで元の画像サイズ

TransposeConv2D Quiz : TransposeConv2DのOutput Shapeは？ >> input = torch.randn(20, 16,
50, 100) >> m = nn.ConvTranspose2d(16, 33, kernel_size=3, stride=2, padding=1,dilation=2) >> output = m(input) [ Image Credit ] 元画像 2x2 アップサンプリング後 4x4 Stride : 1 Padding : 0 (Valid in Tensorflow) Dilation : 1

TransposeConv2D Quiz : TransposeConv2DのOutput Shapeは？ >> input = torch.randn(20, 16,
50, 100) >> m = nn.ConvTranspose2d(16, 33, kernel_size=3, stride=2, padding=1,dilation=2) >> output = m(input) 正解 : torch.Size([20, 33, 101, 201])

TransposeConv2Dの計算方法 (Stride) Stride = 1 Step(0) Stride = 2 ...
... Output Input Kernel Step(1) Step(1) まとめ StrideはInput上をカーネルが操作する時の回数が変更

TransposeConv2Dの計算方法(Padding) Padding = 1 ... ... Output ... Padding =
2 Padding = 0 まとめ Paddingはカーネルのスタート地点が変更

TransposeConv2Dの計算方法 (Dilation) Dilation = 1 Dilation = 2 ... Output
Input Kernel カーネル走査スタート時 ... まとめ Paddingはカーネルのスタート地点からInput上に行くまでの距離が変更

TransposeConv2D 解答 Quiz : TransposeConv2DのOutput Shapeは？ >> input = torch.randn(20,
16, 50, 100) >> m = nn.ConvTranspose2d(16, 33, kernel_size=3, stride=2, padding=1,dilation=2) >> output = m(input) 正解 : torch.Size([20, 33, 101, 201])

実際のコード FCN(2014, Jonathan) 15層の3x3 Convで1/32 7x7 Convと1x1Convで4096次元に 1x1 Convで21次元に(VOCのクラス数) torch.Size([1,
21, 16, 12]) Transpose Convで元の画像サイズ nn.ConvTranspose2d(21, 21, 64, stride=32) torch.Size([1, 21, 416, 544]) 500 375

Fully Convolutional Network FCN-32s : そのまま FCN-16s : feature4とconcat FCN-8s
: feature3とconcat 結果空間的な情報を補完することが可能

UNet(2015, Olaf) - 医療画像が対象 - High resolutionの画像生成が可能 - GAN で広く応用!

Saliency Detection - 2D, 3D(Depth), 4Dの問題に分けることが可能 - ルール⇨CNN⇨Network Engineering
3D(RGB-D画像)は大きくわけて2種類 - MultiModal Input Fusion ⇦◉, UCNet - MultiModal Feature Fusion ⇦◉ - UniModal Result Fusion 近年の動向 Coase to Fine , SOC [ Image Credit ] Kinect [ Image Credit ] RealSense [ Image Credit ]

UCNet(2020, Jing) • 5つのモジュール(実質3つ) • 学習とテストで使うモジュールが異なる • 実際のコードを追うことは大変 Contribution 1
) 初めてこのタスクでCVAEを採用 2 ) 多数決をするモジュール(実装なし) 3 ) Depth情報も修正

Conditional Variational AutoEncoder AutoEncoderとVariational AutoEncoderの復習 AutoEncoder [ Image Credit ]
Variational AutoEncoder 精度の向上、Latent Vectorの分布が0中心、Latent Vetorであるzの分布が連続的平均0分散1の正規分布に近づくように KL Lossを追加 [ Image Credit ]

Conditional Variational AutoEncoder - 欲しいyラベルを出力したい (Yが複数のモードを持つとき ) - 効率よく学習したい Encoder,
Decoderにyラベルを追加 Objective Functionやモデル構成は入力を増やす以外ほぼ同じ Reconstruction Loss Kullback Leibler Divergence(正則化項) このyをGT画像にしてSaliency Detectionタスクに応用 = UCNet CVAE VAE

PriorNet and PosteriorNet RGB + D をもとにLatent Vector Zを作成 =
PriorNet RGB + D + GTをもとにLatent Vector Zを作成 = PriorNet 構造はシンプルで5層のCNN(BNとLeaky ReLU) + Flatten + MLP Feature Expandingは2次元のテンソルを 4次元のB x 画像サイズに拡大 Loss KL Divergence

DepthCorrectNet - Annotatorの不確かさを考慮し、Depth画像を修正 - EncoderとDecoderからなり、 EncoderはResNet50を使用 Decoder - LayerごとのFeatureをConvでChannel数 UpSamplingでサイズを揃える
- Dilated Conv(6, 12, 18, 24)を挿入足し合わせる Layer 1 Layer 2 Layer 3 Layer 4 RGB-D 画像 ResNet50 Dilated 6,12,18,24 Depth 画像 C

DenseASPP - Semantic Segmentationのテクニックの一つ特徴 - Dilated Convolutionの結果を ConcatenateするASPP
- 途中のFeatureを最終層につなげるDenseNet

SaliencyNet - EncoderとDecoder 構造 - Input : RGB-D画像 + Latent
Vector Latent Vectorは画像サイズと同じに - Output : 1channelのSaliency Map Encoder ResNet50 Decoder - それぞれのFeature Mapsに対して、 DenseASPP Layer 1 Layer 2 Layer 3 Layer 4 RGB-D 画像 + Latent Vector ResNet50 C DenseASPP DenseASPP DenseASPP DenseASPP Saliency Map Decoder

Channel Attention Module(2018, Sangyurun) SE ModuleのAvg Poolingだけでなく、 Max PoolingとAvg Poolingを組み合わせ
⇨コードにはChannel Attentionと書いているが、実装上はSE Module SE Module [ Image Credit ]

Hide and Seek Module(2017, Krishna) - 画像を16個のPatchに分割 - 学習中のみ50%の確率でマスキング効果
- モデルがObjectの関連したパーツを学習する

Semantic Segmentationの指標 4つ今回使用している指標 - MAE - Mean F-Measure -
S-Measure - Mean E-Measure 従来の指標 - OP(Overall Pixel Accuracy) , PC(Per Class Accuracy), IOU - JI(Jaccard Index) i番目のクラスと予測したうちでどの程度合っているか

Mean F-Measure( Arbelaez, 2011) 輪郭を正解することがタスクにおいてより重要輪郭かどうかを予測し、画像の対角成分の0.75%に設定したθ以内に収まると1

S-Measure(2017, Deng-ping) 構造の類似度(Structure Similarity)を捉えたい SSIMをベースに 0.5*Sr+0.5*Soで定義 Region-Aware Structure Similarity Sr
Object-Aware Structure Similarity So (Object Levelが高次元の問題に不可欠) Xfg, YfgはGT, SMの確率分布 So = μOBG + (1-μ)OFG 分布の拡散具合輝度の分布の近さ

E-Measure(2018, Deng-ping) S-MeasureはBinary Mapでうまくいかない Pixelだけの情報でなく、Imageレベルの量も重要 IはForeground Map, Aは全てが1の行列 Bias Matrix
φ 輝度のコントラストと強い相関類似度をアマダール積で計算

結果1 - CVAEにより多様な予測が可能に - 精度も高い - Ours(1)とOurs(2)はCVAEからrandomにサンプリング

結果2

結果3 Ablation Studies M2 : Depth Correction Networkの有無で比較 M4 :
VAE vs CVAE M6 : Monte Carlo Dropout との比較 ( テスト中にDropoutを行うことで Stochastic Inferenceを実現 )

所感 - 少しずつ盛り上がってきている分野 - 不確かさを考慮するDepth Correction Netや予測に確立要素を組み込むCVAEは応用が広そう - CVAEの実装が勉強になった。

人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVP...

人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)

Shintaro Yoshida

More Decks by Shintaro Yoshida

Other Decks in Research

Featured

Transcript