A Probabilistic U-Net for Segmentation of Ambiguous Images

A Probabilistic U-Net for Segmentation of Ambiguous Images Tomoki Tanimura,
B4 Jin Nakazawa Lab, Keio University

書誌情報 § NIPS2018 § 著者: Simon A. A. Kohl, DeepMindの⽅々
§ 所属: German Cancer Research Center § DeepMindにインターンに⾏っている時に⾏った研究

⽬次 § 概要 § 前提知識 § 背景 § 提案⼿法 §
実験 § まとめ

概要 § 通常 § 今回 § 多様な出⼒が可能なSemantic Segmentationモデルの提案

実験 § まとめ

前提: Semantic Segmentation § 画像をピクセルごとに分類をする問題 § きめ細かい物体検出とも⾔える § （Semantic: 種類で分ける，Instance:
物体ごとに分ける） § 代表的なもの: FCN, SegNet, U-Net, Mask R-CNN

実験 § まとめ

研究の⼤まかな背景 § 著者の所属 § German Cancer Research Center § 本研究の最終的な⽬的
§ CT-scan画像から癌の部分を⾃動で検出したい § 今回使⽤するメインのデータセット § 肺のCT-scanに癌細胞の部分がアノテーションされている

難しいところ § データセットのGTが複数存在する § 1枚の肺のCT-scanだけでは，「ここの部分が癌だ」という意⾒が専⾨家でも複数に分かれる § データセットのイメージ Input Graders
= 複数のGT ① ② ③

今回の挑戦 § Graders(=複数のGT)をの分布を学習する § Gradersの分布と同じ確率で多様なSegmentation mapを出⼒する Graders この分布を学習したい Gradersの
⽣成分布

実験 § まとめ

提案⼿法 § CVAE + U-Net ⼊⼒

提案⼿法 § CVAE + U-Net ⼊⼒ U-Net 普通にU-Netで計算

提案⼿法 § CVAE + U-Net ⼊⼒ U-Net ⼊⼒画像から Segmentationの分布を推定

提案⼿法 § CVAE + U-Net ⼊⼒ U-Net サンプリング

提案⼿法 § CVAE + U-Net ⼊⼒ U-Net 出⼒

提案⼿法 § CVAE + U-Net ⼊⼒ U-Net 出⼒ Segmentation Variant
→これが出⼒に多様性を持たせている

提案⼿法 § CVAE + U-Net ⼊⼒ U-Net 出⼒ § 多次元ガウス分布(6次元が良い)
§ 1x1 Convを3回する X ω ψ § Segmentation Variantの分布 § U-Netとzの出⼒後の計算 θ

学習のフロー⼊⼒出⼒ U-Net さっきと違う箇所

学習のフロー⼊⼒出⼒ U-Net

学習のフロー⼊⼒出⼒ U-Net Loss① ①Prior Netの出⼒分布を Posteriorの⽅に近づける

学習のフロー⼊⼒出⼒ U-Net Loss① Loss② ②segmentation mapの出⼒の誤差

学習のフロー⼊⼒出⼒ U-Net Loss① Loss② ロス関数: Loss① Loss② §
Posteriorの出⼒分布(Priorと同様) ν ω X θ ψ z S Y

実験 § まとめ

実験 § ベースライン § 多様な出⼒が可能な既存⼿法4つ § 評価指標 § Generalized Energy
Distance (Dged)[Bellemare et al.] § データセット § LIDC-IDRI § 肺のCT-scan with 癌アノテーション § Cityscapes § 街の写真

ベースライン Dropout U-Net U-Net Ensemble M-Heads Image2Image VAE

ベースライン｜Dropout U-Net § ⾚い部分がDropout layerで ½の確率でDropoutする

ベースライン｜U-Net Ensemble § U-Netのアンサンブルバージョン § mはサンプルしたい数

ベースライン｜U-Net M-Heads § U-Netの最終出⼒を分岐させる § mはサンプルしたい数

ベースライン｜Im2Im VAE § Image2Image translationの構造を利⽤したもの[Phillip et al.] § Priorは標準ガウス分布でfixされている §
Priorからサンプリングされたzの出⼒先はEncorder側の最初 § 元々はAdeversarial lossも使うが，今回はタスクがSegmentationで完全に教師ありなので排除

評価指標 § Generalized Energy Distance (Dged) § 低い⽅が精度が⾼い § Pgt:
GTの分布，Pout: Predの分布，S: Predの出⼒マップ，Y: GT § d(x, y) = 1 ‒ IoU(x,y) → 不⼀致度のようなもの § Sは1回⽬の出⼒，Sʼは2回⽬の出⼒．（Yも同様）

評価指標 § Generalized Energy Distance (Dged) § 低い⽅が精度が⾼い § Pgt:
GTの分布，Pout: Predの分布，S: Predの出⼒マップ，Y: GT § d(x, y) = 1 ‒ IoU(x,y) → 不⼀致度のようなもの § Sは1回⽬の出⼒，Sʼは2回⽬の出⼒．（Yも同様） GTとPredの不⼀致度 2つのPredの不⼀致度 2つのGTの不⼀致度

評価指標 GTとPredの不⼀致度 2つのPredの不⼀致度 2つのGTの不⼀致度⼩さい⽅が良い⼤きい⽅が良い

評価指標 GTとPredの不⼀致度 2つのPredの不⼀致度 2つのGTの不⼀致度 § GTとPredの出⼒は近い⽅が良い §
Segmentation mapの出⼒の精度評価⼩さい⽅が良い⼤きい⽅が良い

評価指標 GTとPredの不⼀致度 2つのPredの不⼀致度 2つのGTの不⼀致度⼩さい⽅が良い⼤きい⽅が良い §
GTとPredの出⼒は近い⽅が良い § Segmentation mapの出⼒の精度評価 § 1回⽬と2回⽬のPred(or GT)の出⼒が⼤きく異なっている⽅が良い § 多様な出⼒ができているかの評価

評価指標 § 実際の計算は2回の出⼒ではなく，総渡りでやっている § 肺の⽅の計算例 § n = 何回出⼒を⾏うかのサンプル数 §
ｍ＝GTの数なので肺の⽅は4

データセット § LIDC-IDRI § 肺のCTscanのdataset § 1枚のCTscanを4⼈の専⾨家でannotation→正解データは4枚になる § Training: 8882,
Validation: 1996, Test: 1992 § Cityscapes § 街の画像 § 19クラス § ⼈⼯的に曖昧さを作り出した § 5個のラベルをラベル2に⼀定確率でフリップ →32個のGT § ʻsidewalkʼ to ʻsidewalk 2ʼ with a probability of 8/17, § ʻpersonʼ to ʻperson 2ʼ with a probability of 7/17, § ʻcarʼ to ʻcar 2ʼ with 6/17, § ʻvegetationʼ to ʻvegetation 2ʼ with 5/17 § ʻroadʼ to ʻroad 2ʼ with probability 4/17.

実験内容 § 定性評価 § ①出⼒結果の可視化 § ④Segmentation variantと出⼒mapの関係を可視化 § 定量評価
§ ②評価指標であるDgedを⽤いた⽐較 § ③モードごとの出⼒頻度を定量化 § 各GTを⼀つのモードとしている § 肺の⽅は4モード，街の⽅は32モード § ⑤アーキテクチャのどこが効いているのか

実験①｜出⼒結果の可視化 § 確かに最下段が最もGraders (GTs)を再現できている

Dgedを⽤いた⽐較 § 薄いバーはdatapoint，symbolはその平均 § 異なるサンプル数で⽐較(左から1, 4, 8, 16) § 結果
§ 4, 8, 16枚の時はProb U-Netの値が最も低い． § サンプル数が1の時は通常のSegmentation⼿法の⽅がいいのは妥当

モード毎の出⼒頻度 (Cityscapesのみ) § GTの⽣成分布をモデルが正しく学習できているかを測定 § 横軸: GTのモードの出現確率 § 縦軸: Predictのモードの出現確率
§ Predの1-IoUが最も近いGTのモードをそのPredのモードとする § GTとPredのモードの出現確率が近い⽅が良いので，正の相関が強いProb U- Netが最もよい

モード毎の出⼒頻度のヒストグラム § Dropout U-Net § ピクセル毎の確率は⾼い § モードの分布はつかめていない § U-Net
Ensemble § モデルを平均した時に，出⼒も平均化されてしまうピクセル毎の出現確率

モード毎の出⼒頻度のヒストグラム § M-Heads § 最初の2つに⽐べて多くのモードを捉えられているが，その頻度はつかめていない § Im2Im VAE
§ 全モードを出⼒できているが，M- Heads同様，頻度は捉えられず

モード毎の出⼒頻度のヒストグラム § Prob U-Net § 全モードを出⼒できている § 頻度もGTとほぼ⼀致している § 分布を正確に捉えることができて
いる

Segmentation variant と出⼒の関係の可視化 § Segmentation Variantを低次元に圧縮(肺の⽅は2， Cityscapesは3) § 出⼒をマッピング

アーキテクチャのどの部分が効いているか提案⼿法 Priorを標準ガウス分布でfix 学習時にPosteriorの⼊⼒をGTだけにする PriorをU-Netの最初に⼊⼒する § 提案⼿法が最も良かった § Priorで正しくGTの⽣成分布を学習することが重要である
§ 適切なSegmentation Variantを⼊⼒画像から推定できることが必要 § U-Netの最初にSegmentation Variantを⼊⼒した場合，その情報を最後まで保持しておくことが難しい

実応⽤上のメリット § VAEでGTの分布を学習することによって，Segmentation Variantと出⼒の関係性の可視化が可能であること § U-Netの最後にSegmentation Variantを⼊⼒することで，Forwardの計算時間が⾮常に短時間で済む（オレンジの枠だけの計算で複数サンプル可能）
⼊⼒ U-Net 出⼒

実験 § まとめ

まとめ § GTが複数あるような場合のSegmentaion タスクに挑戦． § ⼊⼒画像からGTの分布を推定できるように学習するPrior Netを⽤いた CVAE + U-Netのモデルを提案
§ 肺のCT-scan画像の癌SegmentaionのデータセットとCityscapesを⽤いて，⼤量の実験を実施 § 提案⼿法の有効性と実応⽤上のメリットを⽰した

A Probabilistic U-Net for Segmentation of Ambig...

A Probabilistic U-Net for Segmentation of Ambiguous Images

More Decks by tanimutomo

Other Decks in Research

Featured

Transcript