[Journal Club]OneFormer: One Transformer to Rule Universal Image Segmentation

OneFormer: One Transformer to Rule Universal Image Segmentation Jitesh Jain1,2,
Jiachen Li1, MangTik Chiu1, Ali Hassani1, Nikita Orlov3, Humphrey Shi1,3 , 1SHI Labs, 2IIT Roorkee, 3Picsart AI Research (PAIR), CVPR2023 慶應義塾大学飯岡雄偉 Jain, Jitesh, et al. "Oneformer: One transformer to rule universal image segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

概要背景提案手法結果まとめ概要：OneFormer  背景 ⚫ これまでの統一セグメンテーションモデルは各タスクへのチューニングが必要
 提案手法：OneFormer ⚫ 同アーキテクチャ，パラメータで3つのタスクを扱う統一モデル ⚫ タスクごとの条件付けをするために，contrastive lossを導入  結果 ⚫ 既存の統一手法を上回る結果が得られた 2

概要背景提案手法結果まとめ背景：統一セグメンテーションモデルの変遷  セグメンテーションタスク ⚫ Semantic
segmentation • 同カテゴリ物体を区別せずに全画素をクラス分類 ⚫ Instance segmentation • 数えられる”thing”のみを一意のIDを持つように分類 ⚫ Panoptic segmentation • 全ての”thing”, “stuff”が一意のIDを持つように分類 3

概要背景提案手法結果まとめ背景：既存の統一モデルは各タスクへのチューニングが必要  1枚の画像から全タスクを扱う統一モデル Panoptic-DeepLab [Cheng+,
CVPR20] 4

概要背景提案手法結果まとめ背景：既存の統一モデルは各タスクへのチューニングが必要  1枚の画像から全タスクを扱う統一モデル Panoptic-DeepLab [Cheng+,
CVPR20] 5 各タスクでデータセット・アーキテクチャが異なる

概要背景提案手法結果まとめ背景：既存の統一モデルは各タスクへのチューニングが必要  同じアーキテクチャで全タスクを扱う統一モデルのMask2Former [Cheng+,
CVPR22] 6

概要背景提案手法結果まとめ背景：既存の統一モデルは各タスクへのチューニングが必要  同じアーキテクチャで全タスクを扱う統一モデルのMask2Former [Cheng+,
CVPR22] 7 各タスクのデータセットでそれぞれ学習されている

概要背景提案手法結果まとめ問題設定：同パラメータ・同アーキテクチャでの統一モデル  どのタスクかを入力するだけで全タスクに対応可能なモデルが目標 8

概要背景提案手法結果まとめ提案手法：OneFormer  Contrastive lossをタスク指定のために導入した統一モデル 9

概要背景提案手法結果まとめ提案手法：Multi-Scale Feature Modeling  画像特徴量の抽出
⚫ Backbone networkにはSwin Transformer等を利用 ⚫ Mask2Former等にならい，Multi-Scale Deformable Transformerをpixel decoderに • 各スケールに対して学習可能なpositional embeddingとスケールレベルの埋め込み 10

概要背景提案手法結果まとめ提案手法：Unified Task-Conditioned Query Formulation 
各タスクのGT labelからクラスを示すテキストを作成 11 それぞれのタスクに応じて一意の物体をすべて抽出する semantic segmentationではすべての同カテゴリ物体を1つとみなす

各タスクのGT labelからクラスを示すテキストを作成 12 “a photo with a {CLS}”というテキストを作成してリストとするこのテキストにすることの有用性は Appendix

各テキストの特徴量を抽出し，学習可能なクエリをconcat  Task名の特徴量を含む画像特徴量とのcontrastive lossを計算 13

概要背景提案手法結果まとめ提案手法：Task-Dynamic Mask and Class Prediction
Formulation  各クラスに対してのマスクを生成し，各タスクのGTとの損失を求める  その他の損失 ⚫ ClassificationのCE ⚫ Binary CE ⚫ Dice loss 14

概要背景提案手法結果まとめ実験設定：  データセット：ADE20K, Cityscapes, COCO
 評価指標 ⚫ PQ, AP, mIoU  学習環境 ⚫ 8 A6000 (48 GB each) GPUs：モデルの訓練 ⚫ 8 A100 (80 GB each) GPUs：backboneの訓練 15

概要背景提案手法結果まとめ定量的結果：同backboneを扱うモデルの中でSoTA  Cityscapes 16

概要背景提案手法結果まとめ定性的結果：Mask2Formerよりも正確なマスクの生成  あああ 17

概要背景提案手法結果まとめ Mask2Formerとの比較：チューニングしたモデルよりも高性能 18

概要背景提案手法結果まとめ実際にやってみた：Talk2Car-RegSeg 19

概要背景提案手法結果まとめまとめ：OneFormer  背景 ⚫ これまでの統一セグメンテーションモデルは各タスクへのチューニングが必要
 提案手法：OneFormer ⚫ 同アーキテクチャ，パラメータで3つのタスクを扱う統一モデル ⚫ タスクごとの条件付けをするために，contrastive lossを導入  結果 ⚫ 既存の統一手法を上回る結果が得られた 20

概要背景提案手法結果まとめ所感：  Strengths ⚫ 実験が豊富に行われており、定量的な比較も多く論文内に記載されている
⚫ 対照学習のようにタスクの条件付けを行っているところが面白い  Weaknesses ⚫ 既存の機構を多く用いているためか数式が損失関数しか書かれていない  Comment ⚫ Demoを動かしてみたところ，推論は速いように感じられた 21

概要背景提案手法結果まとめ Appendix：テキスト表現の有用性 22

概要背景提案手法結果まとめ Appendix：contrastive lossの有用性 23

概要背景提案手法結果まとめ Appendix：その他のデータセットでの評価  ADE20K 24

概要背景提案手法結果まとめ Appendix：その他のデータセットでの評価  COCO 25

概要背景提案手法結果まとめ Appendix：タスクごとの性能差 26

[Journal Club]OneFormer: One Transformer to Rule Universal Image Segmentation

[Journal Club]OneFormer: One Transformer to Rule Universal Image Segmentation

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

OneFormer: One Transformer to Rule Universal Image Segmentation Jitesh Jain1,2,

概要背景提案手法結果まとめ概要：OneFormer  背景 ⚫ これまでの統一セグメンテーションモデルは各タスクへのチューニングが必要

概要背景提案手法結果まとめ背景：統一セグメンテーションモデルの変遷  セグメンテーションタスク ⚫ Semantic

概要背景提案手法結果まとめ背景：既存の統一モデルは各タスクへのチューニングが必要  1枚の画像から全タスクを扱う統一モデル Panoptic-DeepLab [Cheng+,

概要背景提案手法結果まとめ背景：既存の統一モデルは各タスクへのチューニングが必要  1枚の画像から全タスクを扱う統一モデル Panoptic-DeepLab [Cheng+,

概要背景提案手法結果まとめ背景：既存の統一モデルは各タスクへのチューニングが必要  同じアーキテクチャで全タスクを扱う統一モデルのMask2Former [Cheng+,

概要背景提案手法結果まとめ背景：既存の統一モデルは各タスクへのチューニングが必要  同じアーキテクチャで全タスクを扱う統一モデルのMask2Former [Cheng+,

概要背景提案手法結果まとめ問題設定：同パラメータ・同アーキテクチャでの統一モデル  どのタスクかを入力するだけで全タスクに対応可能なモデルが目標 8

概要背景提案手法結果まとめ提案手法：OneFormer  Contrastive lossをタスク指定のために導入した統一モデル 9

概要背景提案手法結果まとめ提案手法：Multi-Scale Feature Modeling  画像特徴量の抽出

概要背景提案手法結果まとめ提案手法：Unified Task-Conditioned Query Formulation 

概要背景提案手法結果まとめ提案手法：Unified Task-Conditioned Query Formulation 

概要背景提案手法結果まとめ提案手法：Unified Task-Conditioned Query Formulation 

概要背景提案手法結果まとめ提案手法：Task-Dynamic Mask and Class Prediction

概要背景提案手法結果まとめ実験設定：  データセット：ADE20K, Cityscapes, COCO

概要背景提案手法結果まとめ定量的結果：同backboneを扱うモデルの中でSoTA  Cityscapes 16

概要背景提案手法結果まとめ定性的結果：Mask2Formerよりも正確なマスクの生成  あああ 17

概要背景提案手法結果まとめ Mask2Formerとの比較：チューニングしたモデルよりも高性能 18

概要背景提案手法結果まとめ実際にやってみた：Talk2Car-RegSeg 19

概要背景提案手法結果まとめまとめ：OneFormer  背景 ⚫ これまでの統一セグメンテーションモデルは各タスクへのチューニングが必要

概要背景提案手法結果まとめ所感：  Strengths ⚫ 実験が豊富に行われており、定量的な比較も多く論文内に記載されている

概要背景提案手法結果まとめ Appendix：テキスト表現の有用性 22

概要背景提案手法結果まとめ Appendix：contrastive lossの有用性 23

概要背景提案手法結果まとめ Appendix：その他のデータセットでの評価  ADE20K 24

概要背景提案手法結果まとめ Appendix：その他のデータセットでの評価  COCO 25

概要背景提案手法結果まとめ Appendix：タスクごとの性能差 26