Introduction of Mask R-CNN

August 24, 2019

  1. 画像認識 š画像全体を⼊⼒として、何が 写っているかをラベル付け šディープニューラルネット ワーク、特に畳み込みニュー ラルネットワークのパワーを 最初に⾒せつけた分野 Figure 4: (Left)

    https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
  2. 基本となるのは CNN(畳み込みニューラルネットワーク) 150x150x3 148x148x32 74x74x32 72x72x64 36x36x64 34x34x128 17x17x128 15x15x128

    7x7x128 6272 512 1 conv3x3, 32 stride (1, 1) maxpool2x2 stride (2, 2) conv3x3, 64 stride (1, 1) maxpool2x2 stride (2, 2) conv3x3, 128 stride (1, 1) maxpool2x2 stride (2, 2) conv3x3, 128 stride (1, 1) maxpool2x2 stride (2, 2) flatten flatten dense dense dense dense ・ (積和) カーネル (フィルタ)
  3. ディープラーニング以前の代表的⼿法 HOG š画像上のスライディングウィ ンドウに対して、従来⼿法に よる特徴量抽出を⾏う š抽出した特徴量を元に Support Vetctor Machine (SVM)によって判定

    https://hal.inria.fr/file/index/docid/548512/filename/hog_cvpr2005.pdf
  4. R-CNN (Region-based CNN) š HOGの特徴検出器の代わりにCNNを使う š スライディング・ウィンドウでしらみつぶしにCNNによる判定を⾏うのは ⾮現実的 š 物体らしさ(Objectness)を⾒つける既存⼿法(Selective

    https://arxiv.org/abs/1311.2524
  5. IoUとNMS š IoU: Intersection over Union š領域の重なり具合の評価指標 š NMS: Non-Maximum

    https://qiita.com/mshinoda88/items/9770ee671ea27f2c81a9
  6. SPP-net (spatial pyramid pooling) š R-CNNでは、2000の領域候補を 同じサイズの画像に変形したの ち、全てCNNにかけて特徴抽出 をしているため、計算量が多い š

    https://arxiv.org/abs/1406.4729
  7. Fast R-CNN šRoI pooling layerという、SPPのpyramid構造を取り除いたシンプ ルな幅可変poolingを⾏う šclassification/bounding box regressionを同時に学習させるため の

    https://arxiv.org/abs/1504.08083
  8. RoI(Region of Intrest) Pooling š 単純で効率的なプーリング⼿法 š 領域候補を同じサイズのセクショ ンに分割(その数は出⼒の次元と 同じ)

    https://qiita.com/mshinoda88/items/9770ee671ea27f2c81a9
  9. Faster R-CNN š RPN(Region Proposal Network) の導⼊とEnd- to-End 学習 š

    https://arxiv.org/abs/1506.01497
  10. RPN Anchor Boxを出発点に 物体のありそうな領域 を抽出 Region Proposal Network • 特徴マップ上にAnchorを定義(方眼紙に見立てて、各マスの中心のイメージ)

    Faster R-CNN: http://arxiv.org/abs/1506.01497
画像 特徴 マップ CNN (特徴抽出) ・・・ スケール アスペクト比 × 各アンカーごとにk個のBox (例: k = 3 × 3) 2k scores (物体 or 背景) 4k coordinates (x, y, w, hの 修正項) H x W x 3 H/16 x W/16 x 3 8 https://www.slideshare.net/ToshinoriHanya/ohs3
  11. FPN (Feature Pyramid Net) š さまざまなスケールの物体を検出するた めの⼯夫 š CNNの各層の出⼒を特徴として取り出す ボトムアップ処理

    https://arxiv.org/abs/1612.03144
  12. RetinaNet š Facebook AI Researchに よる提案 š 分類器にFocal Lossを導 ⼊(前景後景のオブ

    https://arxiv.org/abs/1708.02002
  13. YOLO v3 š Bounding Boxの指標に誤差⾃乗和を採⽤ š 物体らしさの評価にロジスティック回 帰を使⽤ š クラス分類にSoftmaxではなくロジス

    https://arxiv.org/abs/1804.02767
  14. シングルタスクよりも⾼い性能を達成 backbone APbb APbb 50 APbb 75 APbb S APbb

    M APbb L Faster R-CNN+++ [19] ResNet-101-C4 34.9 55.7 37.4 15.6 38.7 50.9 Faster R-CNN w FPN [27] ResNet-101-FPN 36.2 59.1 39.0 18.2 39.0 48.2 Faster R-CNN by G-RMI [21] Inception-ResNet-v2 [41] 34.7 55.5 36.7 13.5 38.1 52.0 Faster R-CNN w TDM [39] Inception-ResNet-v2-TDM 36.8 57.7 39.2 16.2 39.8 52.1 Faster R-CNN, RoIAlign ResNet-101-FPN 37.3 59.6 40.3 19.8 40.2 48.8 Mask R-CNN ResNet-101-FPN 38.2 60.3 41.7 20.1 41.1 50.2 Mask R-CNN ResNeXt-101-FPN 39.8 62.3 43.4 22.1 43.2 51.2 Table 3. Object detection single-model results (bounding box AP), vs. state-of-the-art on test-dev. Mask R-CNN using ResNet-101- FPN outperforms the base variants of all previous state-of-the-art models (the mask output is ignored in these experiments). The gains of Mask R-CNN over [27] come from using RoIAlign (+1.1 APbb), multitask training (+0.9 APbb), and ResNeXt-101 (+1.6 APbb). (50% relative improvement). Moreover, we note that with RoIAlign, using stride-32 C5 features (30.9 AP) is more ac- curate than using stride-16 C4 features (30.3 AP, Table 2c). RoIAlign largely resolves the long-standing challenge of using large-stride features for detection and segmentation. Finally, RoIAlign shows a gain of 1.5 mask AP and 0.5 4.4. Timing Inference: We train a ResNet-101-FPN model that shares features between the RPN and Mask R-CNN stages, follow- ing the 4-step training of Faster R-CNN [36]. This model runs at 195ms per image on an Nvidia Tesla M40 GPU (plus 15ms CPU time resizing the outputs to the original resolu- Figure 5. More results of Mask R-CNN on COCO test images, using ResNet-101-FPN and running at 5 fps, with 35.7 mask AP (Table 1). backbone AP AP50 AP75 APS APM APL MNC [10] ResNet-101-C4 24.6 44.3 24.8 4.7 25.9 43.6 FCIS [26] +OHEM ResNet-101-C5-dilated 29.2 49.5 - 7.1 31.3 50.0 FCIS+++ [26] +OHEM ResNet-101-C5-dilated 33.6 54.5 - - - - Mask R-CNN ResNet-101-C4 33.1 54.9 34.8 12.1 35.6 51.1 Mask R-CNN ResNet-101-FPN 35.7 58.0 37.8 15.5 38.1 52.4 Mask R-CNN ResNeXt-101-FPN 37.1 60.0 39.4 16.9 39.9 53.5 Table 1. Instance segmentation mask AP on COCO test-dev. MNC [10] and FCIS [26] are the winners of the COCO 2015 and 2016 segmentation challenges, respectively. Without bells and whistles, Mask R-CNN outperforms the more complex FCIS+++, which includes multi-scale train/test, horizontal flip test, and OHEM [38]. All entries are single-model results. can predict K masks per RoI, but we only use the k-th mask, where k is the predicted class by the classification branch. The m⇥m floating-number mask output is then resized to the RoI size, and binarized at a threshold of 0.5. Note that since we only compute masks on the top 100 detection boxes, Mask R-CNN adds a small overhead to its Faster R-CNN counterpart (e.g., ⇠20% on typical models). 4. Experiments: Instance Segmentation We perform a thorough comparison of Mask R-CNN to the state of the art along with comprehensive ablations on the COCO dataset [28]. We report the standard COCO met- rics including AP (averaged over IoU thresholds), AP50 , AP75 , and APS , APM , APL (AP at different scales). Un- less noted, AP is evaluating using mask IoU. As in previous work [5, 27], we train using the union of 80k train images and a 35k subset of val images (trainval35k), and re- 4.1. Main Results We compare Mask R-CNN to the state-of-the-art meth- ods in instance segmentation in Table 1. All instantia- tions of our model outperform baseline variants of pre- vious state-of-the-art models. This includes MNC [10] and FCIS [26], the winners of the COCO 2015 and 2016 segmentation challenges, respectively. Without bells and whistles, Mask R-CNN with ResNet-101-FPN backbone outperforms FCIS+++ [26], which includes multi-scale train/test, horizontal flip test, and online hard example min- ing (OHEM) [38]. While outside the scope of this work, we expect many such improvements to be applicable to ours. Mask R-CNN outputs are visualized in Figures 2 and 5. Mask R-CNN achieves good results even under challeng- ing conditions. In Figure 6 we compare our Mask R-CNN baseline and FCIS+++ [26]. FCIS+++ exhibits systematic artifacts on overlapping instances, suggesting that it is chal-
  15. さまざまな実装例 šmatterport/Mask_RCNN šKeras による実装 š tensorflow/models šTensorFlow Object Detection API

    の機能として実装 šfacebookresearch/detectron šFacebook の Object Detection System の⼀部として実装(Caffe2ベース) š facebookresearch/maskrcnn-benchmark šPyTorch による実装
  16. コンテスト š SIIM-ACR Pneumothorax Segmentation -- Identify Pneumothorax disease in

    chest x-rays šhttps://www.kaggle.com/c/siim-acr-pneumothorax-segmentation šレントゲン画像から気胸の部位を検出する šもうすぐコンペ終了 š 2018 Data Science Bowl -- Find the nuclei in divergent images to advance medical discovery šhttps://www.kaggle.com/c/data-science-bowl-2018 š顕微鏡写真から細胞核を検出する š終了したコンペ
  17. Mask R-CNNの使い所 š Mask R-CNNは、物体検出とセグメンテーション、キーポイント検出を同 時に⾏えるモデル š 物体検出だけ、セグメンテーションだけを⾏うモデルよりも⾼い精度が 期待できる š

    画像診断や故障部位検出などの分野に応⽤可能と考えられる š ベースとなるCNNや物体検出やセグメンテーションのデータセットで訓練 済みのネットワークを使い、転移学習・ファインチューニングが可能 š ただし、物体検出の推論スピードは、YOLOやSSDなどに⽐べて速くないの で、⽬的によっては留意が必要
  18. 参考にした記事等 š 物体検出、セグメンテーションをMask R-CNNで理解してみる (初⼼者) š https://qiita.com/shtamura/items/4283c851bc3d9721ed96 š 物体検出についての歴史まとめ š

    https://qiita.com/mshinoda88/items/9770ee671ea27f2c81a9 š 物体検出モデルの進展 Part3 ~FPNとRetinaNet~ š https://qiita.com/TaigaHasegawa/items/653abc81ac4ee1f0d7b8 š アノテーションツール(正解⼊⼒ツール)が進化している。 2 š https://qiita.com/nonbiri15/items/819efb0d42b1541c29c0 š 画像を扱う機械学習のためのデータセットまとめ š https://qiita.com/leetmikeal/items/7c0d23e39bf38ab8be23