Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal Club]OneFormer: One Transformer to Rule Universal Image Segmentation

[Journal Club]OneFormer: One Transformer to Rule Universal Image Segmentation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. OneFormer: One Transformer to Rule Universal Image Segmentation Jitesh Jain1,2,

    Jiachen Li1, MangTik Chiu1, Ali Hassani1, Nikita Orlov3, Humphrey Shi1,3 , 1SHI Labs, 2IIT Roorkee, 3Picsart AI Research (PAIR), CVPR2023 慶應義塾大学 飯岡雄偉 Jain, Jitesh, et al. "Oneformer: One transformer to rule universal image segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
  2. 概要 背景 提案手法 結果 まとめ 概要:OneFormer  背景 ⚫ これまでの統一セグメンテーションモデルは各タスクへのチューニングが必要

     提案手法:OneFormer ⚫ 同アーキテクチャ,パラメータで3つのタスクを扱う統一モデル ⚫ タスクごとの条件付けをするために,contrastive lossを導入  結果 ⚫ 既存の統一手法を上回る結果が得られた 2
  3. 概要 背景 提案手法 結果 まとめ 背景:統一セグメンテーションモデルの変遷  セグメンテーションタスク ⚫ Semantic

    segmentation • 同カテゴリ物体を区別せずに全画素をクラス分類 ⚫ Instance segmentation • 数えられる”thing”のみを一意のIDを持つように分類 ⚫ Panoptic segmentation • 全ての”thing”, “stuff”が一意のIDを持つように分類 3
  4. 概要 背景 提案手法 結果 まとめ 提案手法:Multi-Scale Feature Modeling  画像特徴量の抽出

    ⚫ Backbone networkにはSwin Transformer等を利用 ⚫ Mask2Former等にならい,Multi-Scale Deformable Transformerをpixel decoderに • 各スケールに対して学習可能なpositional embeddingとスケールレベルの埋め込み 10
  5. 概要 背景 提案手法 結果 まとめ 提案手法:Unified Task-Conditioned Query Formulation 

    各タスクのGT labelからクラスを示すテキストを作成 11 それぞれのタスクに応じて一意の物体 をすべて抽出する semantic segmentationではすべての同 カテゴリ物体を1つとみなす
  6. 概要 背景 提案手法 結果 まとめ 提案手法:Unified Task-Conditioned Query Formulation 

    各タスクのGT labelからクラスを示すテキストを作成 12 “a photo with a {CLS}”というテキス トを作成してリストとする このテキストにすることの有用性は Appendix
  7. 概要 背景 提案手法 結果 まとめ 提案手法:Unified Task-Conditioned Query Formulation 

    各テキストの特徴量を抽出し, 学習可能なクエリをconcat  Task名の特徴量を含む画像特徴 量とのcontrastive lossを計算 13
  8. 概要 背景 提案手法 結果 まとめ 提案手法:Task-Dynamic Mask and Class Prediction

    Formulation  各クラスに対してのマスクを生成し,各タスクのGTとの損失を求める  その他の損失 ⚫ ClassificationのCE ⚫ Binary CE ⚫ Dice loss 14
  9. 概要 背景 提案手法 結果 まとめ 実験設定:  データセット:ADE20K, Cityscapes, COCO

     評価指標 ⚫ PQ, AP, mIoU  学習環境 ⚫ 8 A6000 (48 GB each) GPUs:モデルの訓練 ⚫ 8 A100 (80 GB each) GPUs:backboneの訓練 15
  10. 概要 背景 提案手法 結果 まとめ まとめ:OneFormer  背景 ⚫ これまでの統一セグメンテーションモデルは各タスクへのチューニングが必要

     提案手法:OneFormer ⚫ 同アーキテクチャ,パラメータで3つのタスクを扱う統一モデル ⚫ タスクごとの条件付けをするために,contrastive lossを導入  結果 ⚫ 既存の統一手法を上回る結果が得られた 20
  11. 概要 背景 提案手法 結果 まとめ 所感:  Strengths ⚫ 実験が豊富に行われており、定量的な比較も多く論文内に記載されている

    ⚫ 対照学習のようにタスクの条件付けを行っているところが面白い  Weaknesses ⚫ 既存の機構を多く用いているためか数式が損失関数しか書かれていない  Comment ⚫ Demoを動かしてみたところ,推論は速いように感じられた 21