Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文解説 Mask2Former
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
koharite
June 15, 2022
Research
5.1k
11
Share
論文解説 Mask2Former
Presentation for explaining the paper Mask2Former presented at CVPR2022.
koharite
June 15, 2022
More Decks by koharite
See All by koharite
論文解説 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
koharite
0
260
論文解説 DTPP: Differentiable Joint Conditional Prediction and Cost Evaluationfor Tree Policy Planning in Autonomous Driving
koharite
0
170
論文解説 Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?
koharite
0
270
論文解説 DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models
koharite
0
340
論文解説 EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention
koharite
0
710
論文解説 CoCa: Contrastive Captioners are Image-Text Foundation Models
koharite
0
1.3k
論文解説 LoRA : Low Rank Adaptation of Large Language Models
koharite
3
2.5k
論文解説 ControlNet
koharite
0
6.5k
論文解説 InstructGPT : Training language models to follow instructions with human feedback
koharite
4
3.8k
Other Decks in Research
See All in Research
セマンティック通信勉強会 6Gに向けたデバイス間効率的な通信の技術紹介・課題・今後展望
satai
2
130
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
280
The mathematics of transformers
gpeyre
0
290
正規分布と最適化について
koide3
0
230
COFFEE-Japan PROJECT Impact Report(海ノ向こうコーヒー)
ontheslope
0
1.7k
IEEE AIxVR 2026 Keynote Talk: "Beyond Visibility: Understanding Scenes and Humans under Challenging Conditions with Diverse Sensing"
miso2024
0
190
はじまりの クエスチョンブック —余暇と豊かさにあふれた社会とは?
culturaltransition
PRO
0
470
LiDAR点群の地表面分類手法の比較・検証
vegapunkhiroshi79
0
110
それ、チームの改善になってますか?ー「チームとは?」から始めた組織の実験ー
hirakawa51
0
1.2k
Harness Engineering and Al Agent
kzinmr
3
1.6k
明日から使える!研究効率化ツール入門
matsui_528
13
7.2k
機械学習で作った ポケモン対戦bot で 遊ぼう!
fufufukakaka
0
230
Featured
See All Featured
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.8k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
520
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
220
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
2
1.5k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
540
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
61
44k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
Transcript
論⽂解説 Masked-attention Mask Transformer for Universal Image Segmentation Takehiro Matsuda
2 論⽂情報 • タイトル:Masked-attention Mask Transformer for Universal Image Segmentation
• 論⽂: https://arxiv.org/abs/2112.01527 • コード: https://github.com/facebookresearch/Mask2Former • 投稿学会: CVPR2022 • 著者: Bowen Cheng, Ishan Misra, Alexander G. Schwing, Alexander Kirillov, Rohit Girdhar • 所属:Facebook AI Research (FAIR), University of Illinois at Urbana-Champaign (UIUC) 選んだ理由: • Transformerを使ったユニバーサルなアーキテクチャを提案し、セグメンテーション タスクについてSemantic, Instance, Panopticの違いによらず使える • Semantic, Instance, PanopticそれぞれでこれまでのSOTAを超える性能を達成した。
3 論⽂概要 Panoptic Instance Semantic Transformer DecoderにMasked Attentionを導⼊する Transformer decoderをMulti-scaleにする。
学習で得られたMask領域におけるMasked Attentionにより 局所的な特徴を精度良く捉える。 Panoptic: COCO Panopnic val2017 Instance: COCO val2017 Semantic: ADE20K SOTAを達成 Ground Truth Prediction Ground Truth Prediction
4 Segmentationの違い Pixel毎にクラスを認識 指定したクラス の存在する場所 を認識、同じク ラスでも別個体 は分ける (空などを対象ク ラスにしなけれ
ば識別されない Pixelがある) Thingはinstanceと して認識、 Stuff(空や道路)も 認識
5 関連論⽂ DETR( Detection Transformer) : Object DetectionでTransformerを導⼊ MaskFormer: SegmentationでTransformerによるMaskを作り出し、推定する
FAIR (Facebook AI Research)が出しているTransformerを使った画像認識に 関する⼀連の論⽂の流れ DETR MaskFormer TransformerでGlobalな特徴や関係を抽出できる が、⼩さい物体の認識は若⼲苦⼿だったことや ⼤きな計算リソースが必要だった点を改良する。
6 Transformer概説 https://www.slideshare.net/SSII_Slides/ssii2022-ts1-transformer (⽜久⽒資料より)
7 Transformer概説
8 Transformer概説
9 Transformer概説
10 Transformer概説
11 Transformer概説
12 Transformer概説
13 Transformer概説
14 DETR Anchorの設定やNMS(Non Maximum Suppression)を必要としない。
15 DETR ⾼解像度の近傍Pixel(領域) の特徴はCNNネットワーク でエンコードして取得(W, H は1/32, Cは2048) CNNから取り出された画像の特徴量からAttentionを⽤い て各物体の位置や種類の情報に変換
事前に決められた個数Nの物体を予測する 他の予測内容を考慮して⾃⾝の予測するEncoder-Decoder ネットワーク Transformerの出⼒を物体の位置座 標・クラスラベルにデコードする ネットワーク
16 MaskFormer TransformerでSemantic SegmentationとPanoptic Segmentationを⾏う Ground Truth Prediction Ground Truth
Prediction
17 MaskFormer Per-Pixel Classification is Not All You Need for
Semantic Segmentation Binary mask predictionsを取得する transformer decoderでN個のclass predictionsと mask embeddingsを取得 Binary MaskにたいしてPixelごとのmask lossを算出 Maskごとにクラス推定のlossを算出 Segmentation TaskをMask classificationとして、 (1) 画像からN個のbinary mask 領域を作成 (2) 各マスク領域をK個の認識 カテゴリそれぞれに所属 する確率をだす
18 Mask2Former MaskFormerの弱点を改良 • ⼩さな対象の精度が悪い • ⼤きなコンピュータリソース • ⻑い学習時間 panoptic
segmentation (57.8 PQ on COCO) instance segmentation (50.1 AP on COCO) Semantic segmentation (57.7 mIoU on ADE20K). SOTAを達成
19 Masked Attention Masked attention 画像全体から学習されるcross-attentionに変わり、 オブジェクトクエリの予測に基づいて⽣成され たマスクを使って特定領域内でAttentionをとる。 通常のcross attention
Masked attention ⼩物体や物体境界などの細部の認識が改善さ れるのではないか。 We hypothesize that local features are enough to update query features and context information can be gathered through self-attention.
20 Multi-scale high-resolution features Pixel Decoderで元画像の1/32, 1/16, 1/8の Feature Pyramidを作り、Transformer
Decoder もそれぞれに対応する Transformer Decoder 3 x L layers 画像系ではよく使われる解像度のPyramid構造を採⽤ ⼩さなオブジェクトの認識性能を上げる
21 Optimization improvements 通常のTransformer Decoder layerはquery featuresを⽣み出すのにself-attention module, cross- attention,
feed-forward networkを順に送るが、 SelfとMasked(Cross) -attentionの順番を 変え、query featuresを学習可能にした。 Dropoutをなくした。 (これまではresidual connectionsと attention mapsに適応していた)
22 Computer resource reduction MaskFormerでは1つの画像で32GメモリのGPUが必要だった。 PointRendやImplicit PointRendから着想を得て、mask lossを計算するのに、mask全体でなく、 K(=12544=112 x112)個のランダムサンプルされた点で計算する。
推論とground truthとのfinal lossはimportance samplingで別にとったK個のサンプルされた点で⾏う。 最終的に、Mask2Formerでは1つの画像で必要なメモリが18GBから6GBまで削減された。 ⾼解像のMask predictionのため
23 PQ Metrics Average IoU 正しく認識できたものの 割合(F1 scoreに似たもの) IoU >=0.5でTP
Panoptic Segmentationの性能評価指標
24 Experiment – Panoptic Segmentation COCO panoptic val 2017 with
133 categories
25 Panoptic Segmentation Visualization GT GT predict predict
26 Experiment – Instance Segmentation COCO val 2017 with 80
categories
27 Instance Segmentation Visualization GT GT predict predict
28 Experiment – Semantic Segmentation ADE20K val with 150 categories
Single scale Multi scale
29 Semantic Segmentation Visualization GT GT predict predict
30 参考資料 DETR https://arxiv.org/abs/2005.12872 https://github.com/facebookresearch/detr MaskFormer https://arxiv.org/abs/2107.06278 https://github.com/facebookresearch/MaskFormer Panoptic Segmentation
https://arxiv.org/abs/1801.00868 Transformerの最前線 (オムロンサイニックエックス ⽜久⽒) https://www.slideshare.net/SSII_Slides/ssii2022-ts1-transformer